第十章 相關分析.doc_第1頁
第十章 相關分析.doc_第2頁
第十章 相關分析.doc_第3頁
第十章 相關分析.doc_第4頁
第十章 相關分析.doc_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第10章 相關分析(Correlation Analysis)社會經濟現(xiàn)象之間相互聯(lián)系和相互制約是社會經濟現(xiàn)象的普遍規(guī)律。社會經濟的發(fā)展總是與一定的經濟變量的數量變化密切相關。一種經濟變量的變化往往取決于其他變量的變化,或者影響其他變量的變化。要認識和掌握客觀經濟規(guī)律,就必須探究經濟現(xiàn)象間經濟變量的相互影響及其變化規(guī)律。變量之間的統(tǒng)計關系是經濟變量變化規(guī)律的重要特征。根據各經濟現(xiàn)象及經濟變量之間關系的緊密程度,把這些經濟現(xiàn)象和經濟變量之間的關系通常分為兩類:一類是某一變量的變化完全取決于另一個或若干個其他變量的變化,即變量之間存在著唯一完全確定關系。這種關系稱為函數關系。例如,銀行的貸款利息為,貸款額為,則到期的本息為,可用函數式表示;銷售額與單位產品的價格及產品的銷售量之間存在函數關系等。另一類是變量之間存在著一定的關系,但它們關系的密切程度尚未達到由一個變量或若干變量完全確定另一個變量的程度。下面看幾個例子。人們的消費水平與其經濟收入有密切的正比關系,通常收入越高消費越大,但人們的消費水平不僅受經濟收入的影響,還受著人們的消費意識、銀行的利息、社會經濟環(huán)境等因素的影響,所以無法用一個確定的函數式表達出來;又如,產品廣告費支出與產品的銷售額有關,廣告費支出越大,產品的銷售額越大,但產品的銷售額不僅受廣告費支出大小的影響,還受到廣告媒體的種類、消費者對該產品的反映等因素的影響。再如,糧食的產量與施肥量有關,但施肥量不能完全確定糧食的產量,它還受氣溫、降雨量等其他自然環(huán)境條件的影響。在數理統(tǒng)計中,我們把上述的變量間具有的密切聯(lián)系而又不能用精確的函數表達式來表示的關系稱作變量間的統(tǒng)計關系或相關關系?,F(xiàn)代統(tǒng)計學中關于相關關系的研究是數理統(tǒng)計研究的一個重要分支。相關分析相關系數偏相關系數次序相關系數 相關系數定義 樣本相關系數 相關系數檢驗 SAS分析程序(圖10-0)相關分析主要內容示意圖 10.1相關系數的計算及其檢驗10.1.1樣本相關系數設是資料()的組觀測值(樣本),則表示變量與變量線性關系的樣本相關系數定義如下。 (10-1)或 (10-2)式中:,樣本變量的方差: 樣本變量的方差: 樣本協(xié)方差:樣本相關系數的取值范圍為。若 ,則,關系很弱;若,則為中度相關;若,則,為高度相關。相關系數是衡量,兩個變量線性關系程度的尺度。其直觀意義可用下面的圖形表示。但解釋樣本的相關系數時,值得我們注意的是樣本的相關系數只表示,兩個變量的線性關系的程度,而不代表兩個變量的因果(cause and effect)關系。相關系數 的符號代表兩個變量線性關系的方向,相關系數的大小表示其相關強度。下圖是相關系數的幾種情況。圖10-1a和圖10-1b中,兩個變量,之間處于完全相關關系;圖10-1c和圖10-1d中兩個變量,之間處于相關關系,但不是完全相關關系;圖10-1e圖10-1h中,兩個變量,的散點圖都不相等,但它們的相關系數均為零。這是因為每個觀測點都對垂直或水平軸對稱。所以。rxy=1YX(圖10-1a)完全線性正相關rxy=1YX(圖10-1b)完全線性負相關rxy=0.8YXrxy= -0.6YX(圖10-1c)不完全線性正相關(圖10-1d)不完全線性負相關Yrxy=0X(圖10-1e)非線性正相關Yrxy=0X(圖10-1f)完全不相關Yrxy=0XYX(圖10-1g)完全不相關(圖10-1h)完全不相關rxy=010.1.2 相關系數的檢驗協(xié)方差(或相關矩)在統(tǒng)計分析中具有非常重要的意義。兩個變量的協(xié)方差可用下式來表示, (10-3)因為是量綱,其大小和變量的測量單位有關,所以不能直接利用來分析,兩個變量的相關關系。但是,如果把進行標準化,可用標準化的來表示兩個變量的相關關系,稱作總體的相關系數(population correlation coefficient),以表示,即 (10-4)變量的標準差 變量的標準差也可用下式來表示: (10-5)在實際經濟分析中,通常直接計算總體的相關系數是很困難的,所以常用樣本的相關系數來研究總體變量之間的相關程度。利用觀測值計算出的樣本相關系數說明兩個總體變量是否具有線性相關,通常還需要作假設檢驗。設兩個變量總體的相關系數為,則其檢驗步驟如下:提出原假設及替換假設:原假設: =0, 即兩個變量相互獨立,不存在線性關系。替換假設:0,即兩個變量相互影響,存在線性關系。檢驗統(tǒng)計量: (10-6)若原假設成立,則檢驗統(tǒng)計量T*服從自由度為2的-分布。檢驗統(tǒng)計決策。若,則原假設成立,兩個變量線性關系不顯著。若,則拒絕原假設,兩個變量間的線性關系是顯著的。-值計算1)在SAS程序中只要能計算統(tǒng)計量T*,則自動計算出其相應的p-值。); 下面介紹一下相關分析中經常遇到的皮爾遜相關系數(Pearson correlation coefficient)和斯皮爾曼相關系數(Spearman correlation coefficient)。皮爾遜相關系數(Pearson correlation coefficient)觀測值(), (), ( )的Pearson樣本相關系數定義如下: (10-7)變量,服從雙變量正態(tài)分布(bivariate normal distribution)的假設條件下,可檢測相關系數。 在正態(tài)分布中,如果變量,相互獨立,則其相關系數=0。所以檢測變量,的相互獨立與否取決于變量,的相關系數是否等于零。皮爾遜相關系數的檢驗統(tǒng)計量-值。 (10-8)原假設: =0,即兩個變量相互獨立,不存在線性關系。替換假設:0,即相互影響,存在線性關系。若原假設成立,則檢驗統(tǒng)計量T*服從自由度為2的-分布。斯皮爾曼相關系數(Spearman correlation coefficient)皮爾遜相關系數是以正態(tài)分布為前提條件。但是,當已確認樣本不服從正態(tài)分布時,不能采用皮爾遜相關系數來檢驗兩個變量的獨立(或相關)問題,這時我們必須采用斯皮爾曼相關系數來檢驗兩個變量之間的獨立性問題。斯皮爾曼相關系數所采用的不是觀測值的大小,而是采用觀測值的秩次(rank)。斯皮爾曼相關系數的計算公式如下: (10-9)式中:斯皮爾曼相關系數代表變量Xi的秩次 代表變量Yi的秩次代表Ri的平均 代表Si的平均10.1.3 相關系數SAS分析程序分析相關系數的SAS程序的基本形式如下:(a) PROC CORR DATA=dsn option; (b) VAR 變量; (c) WITH 變量; (d) PARTIAL 變量; (e) WEIGHT 變量; (f) FREQ 變量; (g) BY 變量; (a)PROC CORRPROC CORR是分析相關系數的基本命令。Option:- DATA =dsn: 分析對象資料名。- PEARSON: 分析皮爾遜相關系數。- SPEARMAN: 分析斯皮爾曼相關系數。- NOSIMPLE: 不打印(輸出)各變量的描述性統(tǒng)計量。- NOPROB: 省略檢驗統(tǒng)計量p-值。- COV(covariance):打印協(xié)方差(矩陣)。- NOCORR: 儲存時省略相關系數。- OUTP=dsn: 把皮爾遜相關關系儲存到資料dsn名下。- OUTS=dsn: 把斯皮爾曼相關系數儲存到資料dsn名下。(b)VAR變量指定分析相關系數的變量。(c)WITH變量計算WITH指定的變量與VAR指定的變量之間的相關系數。例)PROC CORR; VAR Y Z; WITH X;計算XY, XZ的相關系數。(d)PARTIAL變量計算PARTIAL所指定的變量的偏相關系數。(e)WEIGHT變量計算加權相關系數時,把加權數指定為行變量。(f)FREQ變量當指定的變量以頻數輸入時,如果使用FREQ,則按頻數重復處理。(g)BY變量以BY指定的變量為基準,計算VAR指定的變量之間的相關系數。案例分析10-1:某中學從580名學生中隨機抽出20名學生,作了體重(weight),每分鐘心臟跳動頻數(pulse),拉單杠(chins),仰臥起坐(situp),跳高(jump)等體力調查。試分析這些體力調查項目之間的相關關系及體重和其它體力調查項目之間的相關關系。(其體力調查資料直接編入到分析程序) (表10-1) 體力調查表 Weight pulse chins situps jumps Weight pulse chins situps jumps190 50 5 162 60247 50 1 50 50189 52 2 110 60193 46 6 70 31193 58 12 101 101202 62 12 210 120162 62 12 105 37176 54 4 60 25189 46 13 155 58157 52 11 230 80182 56 4 101 42156 54 15 225 73211 56 8 101 42 138 68 2 110 43167 60 6 125 40166 52 13 210 115 176 74 15 200 40154 64 14 215 105154 56 17 251 250169 50 17 120 38SAS PROGRAM:OPTION PS = 60 NODATE; DATA fit; INPUT Weight pulse chins situps jumps ;給Weight等5個變量輸入數據CARDS;190 50 5 162 60 247 50 1 50 50 154 56 17 251 250 169 50 17 120 38RUN;PROC CORR DATA=fit PEARSON SPEARMAN KENDALL; VAR chins situps jumps; WITH weight pulse; RUN; 利用fit的數據,計算VAR指定的chins situps jumps變量和WITH指定的weight pulse 變量之間的皮爾遜系數,斯皮爾曼相關系數,KENDALL的Tau-b PROC CORR DATA=fit PEARSON; VAR CHINS SITUPS JUMPS; WITH WEIGHT; PARTIAL PULSE; RUN; 利用fit的數據,計算VAR指定的chins situps jumps變量和weight之間的皮爾遜系數及固定pulse后的偏相關系數運行結果及解釋:基礎統(tǒng)計量。Correlation Analysis 2 WITH Variables: WEIGHT PULSE 3 VAR Variables: CHINS SITUPS JUMPS Simple Statistics Variable N Mean Std Dev Median Minimum Maximum WEIGHT 20 178.5500 24.6651 176.0000 138.0000 247.0000 PULSE 20 56.1000 7.2104 55.0000 46.0000 74.0000 CHINS 20 9.4500 5.2863 11.5000 1.0000 17.0000 SITUPS 20 145.5500 62.5666 122.5000 50.0000 251.0000 JUMPS 20 70.5000 51.1525 54.0000 25.0000 250.0000打印皮爾遜的相關系數及其相應的p-值。從分析結果中可以看出,體重和chins,situps, jump存在負的相關關系,相關系數的顯著性水準(p-值)分別為0.0907,0.0268,0.3486。每分鐘心臟跳動頻數和chins, situps, jump存在正的相關關系。但體重和jumps,心臟跳動頻數和chins, situps, jump之間相關系數的顯著性水準p值分別為0.3486,0.5261,0.3401,0.8837,比較大,似乎不存在密切的相關關系。Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 20 CHINS SITUPS JUMPS WEIGHT -0.38830 -0.49415 -0.22124 相關系數 0.0907 0.0268 0.3486 p-值 PULSE 0.15065 0.22504 0.03496 0.5261 0.3401 0.8837打印斯皮爾曼的相關系數及其相應的p-值。從分析結果看,體重和situps有比較密切的相關關系(p值0.0076),體重和chins有一定的相關關系(p值0.0076),其余的變量之間似乎不存在相關關系。Spearman Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 20 CHINS SITUPS JUMPS WEIGHT -0.38020 -0.57774 -0.15680 相關系數 0.0982 0.0076 0.5091p-值 PULSE 0.13662 0.17924 0.08781 0.5657 0.4496 0.7128KENDALL的相關系數及顯著性水準和皮爾遜、斯皮爾曼的分析結果很相似。Kendall Tau b Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 20 CHINS SITUPS JUMPS WEIGHT -0.27795 -0.42588 -0.06971 0.0956 0.0100 0.6721PULSE 0.12257 0.15430 0.07674 0.4699 0.3587 0.6467在心臟跳動頻數固定不變的條件下,計算weight, chins, situp, jumps之間的偏相關系數。weight和situp的偏相關系數為0.45423,比前面的相關系數0.49415小,其顯著性水平也提高了0.0515,這說明weight和situp的相關系數受pulse的影響。特別是weight和chins的相關系數的顯著性水平變得沒有顯著性差別。 Pearson Partial Correlation Coefficients / Prob |R| under Ho: Partial Rho=0 / N = 20 CHINS SITUPS JUMPS WEIGHT -0.36215 -0.45423 -0.22403 0.1276 0.0507 0.3565案例分析10-2:生產效率與工資增加率間的相關分析某企業(yè)按職工的生產性(效率)決定其工資增加率。為了分析職工的生產性和其工資增加率之間的關系,從職工中隨機抽出20名作了調查。其調查資料如表10-2。 試做職工的生產性(X)和工資增加率(Y)之間的散點圖。 試求兩個變量的樣本相關系數,并解釋其意義。 試對相關系數的顯著性進行檢驗。(=0.05)(表10-2)工資率增加及生產性生產性工資增加率生產性工資增加率生產性工資增加率474.2595.9545.9718.1676.9766.3646.8565.7535.7354.3675.7404.0435.0575.4475.2607.5697.5232.2384.7383.8SAS PROGRAMDATA ONE;INPUT X Y ;CARDS;47 4.2 71 8.1 64 6.8 35 4.3 43 5.0 60 7.5 38 4.7 59 5.9 67 6.9 56 5.7 67 5.7 57 5.4 69 7.5 38 3.8 54 5.9 76 6.3 53 5.7 40 4.0 47 5.2 23 2.2RUN;PROC PLOT; PLOT Y*X=*; 作以職工的生產性為橫軸,工資增加率為縱軸的散點圖。RUN;PROC CORR NOSIMPLE; VAR X Y; RUN; 計算變量X,Y之間的樣本相關系數及其統(tǒng)計量的p-值。利用命令NOSIMPLE不打印描述性統(tǒng)計量 運行結果及解釋: Y 9 * 8 * * 7 * * * 6 * * * * * * * 5 * * * * 4 * * 3 * 2 20 30 40 50 60 70 80 X由X,Y的散點圖可以看出,隨著生產性(X)的增加,其工資率也增加,并且X,Y之間有明顯的相關關系,接近一條直線。但這些樣本點又不都在一條直線上,這表明變量X與Y的關系并沒有確切到給定X值就可以唯一確定值的程度。事實上,對工資的增加率產生影響的因素很多。如企業(yè)的生產狀況,資金周轉情況等。這些對Y的取值都有隨機性影響。每個樣本與直線間的偏差就可以看作是其他隨機因素的影響。Correlation Analysis2 VAR Variables: X YPearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 20X YX 1.00000 0.89017 0.00000 0.0001Y 0.89017 1.00000 0.0001 0.0由上面的相關分析結果可知,變量與間的樣本相關系數為rxy=0.89017。這說明變量與之間有明顯的相關關系。相關系數rxy=0.89017,其意義是,職工的生產性(情報)對該職工的工資增加率變化的貢獻率為79.2%(rxy2=0.890170.89017)。相關系數檢驗統(tǒng)計量的p值為0.0001,比給定的顯著性水平=0.05小,所以變量X與Y沒有顯著的相關關系的原假設(xy0)被拒絕。案例分析10-3:年薪,年齡,工齡之間的相關分析。某大企業(yè)為了分析職工的年薪、年齡之間的關系,從職工中隨機抽出10名職工進行了調查,其調查資料如表10-3。(表10-3)年薪和年齡資料職工12345678910年薪(Y)52354528426031383348年齡(X1)52473825445536403250工齡(X2)33211431830815727畫出年薪(Y),年齡(X1),工齡(X2)的散點圖,觀察并說明各變量之間的關系。試求三個變量(Y,X1,X2)的相關行列,并解釋其意義。試對相關系數進行顯著性檢驗。(=0.05)SAS PROGRAMDATA ONE;INPUT Y X1 X2 ;CARDS;52 52 33 35 47 21 45 38 14 28 25 3 42 44 18 60 55 30 31 36 8 38 40 15 33 32 7 48 50 27RUN;PROC PLOT HPERCENT=50; PLOT Y* (X1 X2)=* X1*X2=*; RUN;作散點圖PROC CORR NOSIMPLE; VAR Y X1 X2; RUN;不打印描述性統(tǒng)計量,對命令VAR所指定的三個變量Y X1 X2,計算相關行列及其p值。PROC CORR NOSIMPLE; VAR X1 X2; WITH Y; RUN; 只計算變量Y與兩個變量X1 ,X2之間的相關系數。運行結果及解釋:由下面的年薪Y與年齡X1的散點圖(Plot of Y*X1)和年薪Y與工齡X2的散點圖(Plot of Y*X2)中可知,年薪和年齡、工齡之間有明顯的相關關系,接近線性關系。再由年齡和工齡的散點圖(Plot of X1*X2)中可知,年齡與工齡之間有十分明顯的相關關系,接近直線。Plot of Y*X1. Plot of Y*X2. Symbol used is * Symbol used is * Y Y 60 * 60 * 50 * 50 * * * * *40 40 * * * * * *30 * 30 * * * 20 30 40 50 60 0 10 20 30 40 X1 X2Plot of X1*X2. Symbol used is *.X1 *55 * * * 45 * * 35 * * 25 * 0 10 20 30 40 X2Correlation Analysis 3 VAR Variables: Y X1 X2 Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 10 Y X1 X2 Y 1.00000 0.85187 0.87897 0.0 0.0018 0.0008 X1 0.85187 1.00000 0.97005 0.0018 0.0 0.0001 X2 0.87897 0.97005 1.00000 0.0008 0.0001 0.0上面計算結果是三個變量(Y,X1, X2)的相關行列表。此33相關行列以對角元素為中心相對稱。這是因為Y與X1的相關系數和X1與Y的相關系數相等;同理,Y與X2的相關系數和X2與Y的相關系數相等。年薪和年齡,工齡之間的相關系數分別為ryx=0.85187,ryx=0.87897,具有明顯的相關性。隨著年齡和工齡的增加,其年薪接近直線上升。年齡與工齡的相關系數為=0.97005,具有相當明顯的相關關系,完全接近直線。這說明年齡和工齡兩個變量所具有的情報完全類似。對該企業(yè)來說,年齡對工齡的貢獻率可以看作94%( =0.970050.97005)。相關系數驗統(tǒng)計量的p-值分別為0.0018,0.0008,0.0001,都比顯著性水平0.05小,因此變量間沒有顯著的相關性的原假設被拒絕。Correlation Analysis1 WITH Variables: Y2 VAR Variables: X1 X2 Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 10 X1 X2 Y 0.85187 0.87897 0.0018 0.0008上面的計算結果是年薪與年齡及工齡的相關系數。10.3 偏相關系數的計算及檢驗上面討論的是兩個變量之間的相關問題。但在實際經濟生活中,我們所遇到的經濟現(xiàn)象變化很多,經常是幾個重要因素相互作用的結果。如果我們所研究的經濟變量為個(3),在這個變量中,只有一個是因變量,其余個(=1)為獨立變量,而且這個獨

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論