第四章相關與回歸分析_第1頁
第四章相關與回歸分析_第2頁
第四章相關與回歸分析_第3頁
第四章相關與回歸分析_第4頁
第四章相關與回歸分析_第5頁
已閱讀5頁,還剩139頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

朱連華Tel京信息工程大學數(shù)理學院統(tǒng)計系E-mail:ahualian@126.com統(tǒng)計分析與SAS軟件應用第四章相關與回歸分析相關分析相關系數(shù)的計算二個變量間的相關分析多個變量間的相關分析距離分析回歸分析一元線性回歸模型多元線性回歸模型可轉(zhuǎn)化為線性的回歸模型回歸診斷相關與回歸分析---變量間的關系§1相關分析相關系數(shù)的計算二個變量間的相關分析多個變量間的相關分析距離分析一、相關系數(shù)的計算:相關系數(shù)的計算有三種:Pearson相關系數(shù):對定距變量的數(shù)據(jù)進行計算秩相關:Spearman和Kendall相關系數(shù)對分類變量的數(shù)據(jù)或變量值的分布明顯非正態(tài)或分布不明時,計算時先對離散數(shù)據(jù)進行排序或?qū)Χň嘧兞恐蹬牛ㄇ螅┲认嚓P系數(shù)有關公式:Pearson積矩相關

Spearman相關系數(shù)式中Ri是第i個x值的秩,Si是第i個y值的秩。分別是Ri和Si的平均值。Kendall’stau-b:其中ti(或ui)是x(或y)的第i組結點x(或y)值的數(shù)目,n為觀測量數(shù)。關于相關系數(shù)統(tǒng)計意義的檢驗

式中r是相關系數(shù),n是樣本觀測量數(shù),n-2是自由度。當t>t0.05(n-2)時,p<0.05拒絕原假設;Pearson和Spearman相關系數(shù)假設檢驗t值計算公式:二、兩個變量間的相關分析兩兩變量間的相關:包括兩個連續(xù)變量間的相關(Pearson相關)兩個等級(分類)變量間的秩相關(Spearman和Kendall相關)a、連續(xù)變量間的相關:Pearson。實例:zlh.gmsr:1962年-1988年安徽省國民收入與城鄉(xiāng)居民儲蓄存款余額兩個變量間的線性相關分析(income:國民收入,deposit:城鄉(xiāng)居民儲蓄存款余額,number:序號,year:年份)。比較有用的結果:Pearson相關系數(shù)r=.976和其相應的顯著性概率Sig=.000(顯然國民收入與存款余額之間是高度相關的)Pearson相關實例1zlh.gmsrdatazlh.gmsr;inputnumberyearincomedeposit;cards;1 1962 34.61 .592 1963 35.67 .713 1964 39.52 .854 1965 47.32 1.005 1966 54.14 1.226 1967 50.86 1.147 1968 49.69 1.328 1969 51.61 1.289 1970 65.06 1.3510 1971 72.57 1.6011 1972 77.72 1.8712 1973 83.57 2.2013 1974 82.00 2.5514 1975 87.44 2.6115 1976 95.63 2.7416 1977 97.23 3.1317 1978 103.81 3.9118 1979 116.29 5.7519 1980 127.87 8.7620 1981 150.29 12.1921 1982 161.47 16.3622 1983 180.20 20.9523 1984 221.17 28.3224 1985 271.81 38.4325 1986 310.53 55.4326 1987 357.86 75.2027 1988 444.78 89.83;run;proc

corrdata=zlh.gmsr;varincomedeposit;run;Pearson相關實例1安徽省國民收入與城鄉(xiāng)居民存款余額的相關分析(使用默認參數(shù))b、等級(分類)變量間的秩相關:Spearman和Kendall。實例:zlh.yhgz

銀行職工的起始工資salbegin和現(xiàn)工資salary與雇員的職務等級jobcat、受教育程度educ關系(比較有用的結果:Kendall秩相關系數(shù)r和其相應的顯著性概率Sig(Kendall秩相關系數(shù)均>0.5,認為中度相關)實例:zlh.wsbs

某次全國武術女子前10名運動員長拳和長兵器兩項得分數(shù)據(jù),要求分析這兩項得分是否存在線性相關(比較有用的結果:秩相關系數(shù)r和其相應的顯著性概率Sig(秩相關系數(shù)均>0.5,認為中度相關)實例1zlh.yhgzproc

corrdata=zlh.yhgzpearsonspearmankendall;varsalary;witheducjobcat;run;proc

corrdata=zlh.yhgzpearsonspearmankendall;varsalbegin;witheducjobcatprevexp;run;/*id雇員序號gender性別bdate出生日期educ受教育年數(shù)jobcat工作分類salary薪水salbegin初始薪水jobtime本單位工作時間(月)prevexp過去工作經(jīng)歷(月)minority是否少數(shù)民族*/實例1zlh.yhgz左面程序的執(zhí)行結果,Pearson相關下表是執(zhí)行程序的結果,使用非參相關:Spearman和Kendall‘stau-b方法計算相關系數(shù)。這兩個結果是不同的。Pearsom相關分析結果初始工資與受教育程度和職務等級高度相關(p<0.001),與以前的工作經(jīng)歷無關(p=0.327)。Spearman和Kendall‘stau-b的結果是與三者都是高度相關的p值均小于0.001。只是與以前工作經(jīng)歷相關系數(shù)較小0.133和0.186。應該使用哪個輸出結果做結論呢?應該查看變量的測度和進行正態(tài)性分析。從上3個圖可以看出受教育年限、起始工資、以前工作經(jīng)歷(月)都不是正態(tài)分布;從變量屬性的測度類型看,職務等級是Order類型,只分3等,受教育程度也是分類變量少于24等,所以也屬于分類變量Order類型;左表是描述統(tǒng)計量的輸出,偏度和峰度度值都說明這些變量都非正態(tài)分布,因此應該做非參相關。根據(jù)前頁第2個表格看出,起始工資的確定主要考慮了雇員的受教育程度和職務等級。也考慮了以前工作經(jīng)歷長短。均為正相關。

根據(jù)前面對變量測度類型和正態(tài)性分析,當前工資與各因素的相關關系的分析只采用Spearman和Kendall‘stau-b方法計算相關系數(shù)。(只有本企業(yè)工作經(jīng)歷時間偏度接近0)結論:當前工資與以前工作經(jīng)歷的時間長短無關;與受教育年限、起始工資和職務高度相關,與本單位工作時間長短有一定的相關關系:p<0.05,但是相關系數(shù)僅為0.071。秩相關實例2zlh.wsbs;datazlh.wsbs;inputrankingscore1score2;cards;1 9.00 9.252 8.90 9.153 8.90 9.104 8.90 8.955 8.85 9.106 8.85 9.107 8.80 8.858 8.80 8.709 8.80 9.1010 8.80 9.10;run;proccorrdata=zlh.wsbsspearmankendall;varscore1score2;run;秩相關實例2

某次全國武術女子前10名運動員長拳和長兵器兩項得分數(shù)據(jù),要求分析這兩項得分是否存在線性關系。

Kendall’stau-b與Spearman相關系數(shù)三、多元變量間的相關分析偏相關分析復相關分析典型相關分析(后續(xù))偏相關分析的概念線性相關分析計算兩個變量間的相關關系,分析兩個變量間線性關系的程度。往往因為第三個變量的作用,使相關系數(shù)不能真正反映兩個變量間的線性程度。如身高、體重與肺活量之間的關系。如果使用Pearson相關計算其相關系數(shù),可以得出肺活量與身高和體重均存在較強的線性關系。但實際上,如果對體重相同的人,分析身高和肺活量,是否身高越高,肺活量就越大呢?不是的。原因是身高與體重有線性關系,體重與肺活量存在線性關系,因此得出身高和肺活量之間存在著較強的線性關系的錯誤結論。偏相關分析的任務就是在研究兩個變量之間的線性相關關系時控制可能對其產(chǎn)生影響的變量。分析身高與肺活量之間的相關性,就要控制體重在相關分析中的影響。實際生活中有許多這樣的關系,如可以控制年齡和工作經(jīng)驗兩個變量的影響,估計工資收入與受教育程度之間的相關關系??梢栽诳刂屏虽N售能力與各種其他經(jīng)濟指標的情況下,研究銷售量與廣告費用之間的關系等。偏相關的有關公式

以x1,x2,y三個變量為例來求在x2控制變量的影響下,y與x1的一階偏相關系數(shù):(1)先做y對x2,x1對x2的回歸

則e1、e2分別表示清除了x2對y和x1的影響后的y和x1的值。這兩個殘差之間的相關關系代表y和x1之間的純相關關系。

(2)

一階偏相關系數(shù)

類似:控制了兩個變量z1、z2,變量x、y之間的二階偏相關系數(shù):Pearson偏相關系數(shù)假設檢驗的t統(tǒng)計量:其中,r是相應的偏相關系數(shù),n是觀測量數(shù),k是控制變量的數(shù)目,n-k-2是自由度。當t>t0.05(n-k-2)時,p<0.05拒絕原假設偏相關分析實例:身高數(shù)據(jù)zlh.heightdatazlh.height;inputnheightweightvcp;cards;1 135.10 32.0 1.752 139.90 30.4 1.753 163.60 46.2 2.754 146.50 33.5 2.505 156.20 37.1 2.756 156.40 35.5 2.007 167.80 41.5 2.758 149.70 31.0 1.509 145.00 33.0 2.5010 148.50 37.2 2.2511 165.50 49.5 3.0012 135.00 27.6 1.2513 153.30 41.0 2.7514 152.00 32.0 1.7515 160.50 47.2 2.2516 153.00 32.0 1.7517 147.60 40.5 2.0018 157.50 43.3 2.2519 155.10 44.7 2.7520 160.50 37.5 2.0021 143.00 31.5 1.7522 149.90 33.9 2.2523 160.80 40.4 2.7524 159.00 38.5 2.2525 158.20 37.5 2.0026 150.00 36.0 1.7527 144.50 34.7 2.2528 154.60 39.5 2.5029 156.50 32.0 1.75;run;proc

corr;varheightvcp;partialweight;run;proc

corr;varweightvcp;partialheight;run;proc

corr;varheightweight;run;實例:身高數(shù)據(jù)假設:肺活量與體重間無線性相關關系Significant=0.002,拒絕原假設,說明肺活量和體重(控制了身高)高度相關,相關系數(shù)為0.569。假設:肺活量與身高間無線性相關關系。Significant=0.619,接受原假設,說明肺活量和身高(控制了體重)沒有線性關系,相關系數(shù)為0.098。正是由于在身高和體重之間高度線性相關,因此只做線性相關無法找到肺活量與身高和體重的真正的相關關系。結論是:肺活量與體重高度相關,與身高無線性關系。復相關分析以上都是在把其它變量的影響完全排除在外的情況下研究兩個變量之間的相關關系。但是在實際分析中,一個變量的變化往往要受到多種變量的綜合影響,這時就需要采用復相關分析方法。所謂復相關,就是研究多個變量同時與某個變量之間的相關關系,度量復相關程度的指標是復相關系數(shù)。

復相關系數(shù)的計算:設因變量為y,自變量為x1,…,xp;假定回歸模型為:則y與自變量x1,…,xp的相關分析轉(zhuǎn)化為y與的相關分析,y與自變量x1,…,xp的復相關系數(shù):

復相關系數(shù)反映了一個變量與另一組變量關系密切的程度。復相關系數(shù)的假設檢驗等價于多變量回歸的方差分析結果,所以不必再作假設檢驗。再看公式R根號里的分式實際上就是回歸離差平方和與總離差平方和的比值,反映了回歸貢獻的百分比值。所以常把稱為決定系數(shù)或相關指數(shù)。在評價多變量回歸方程、變量選擇、曲線回歸方程擬合的好壞程度中常會用到。復相關分析是典型相關分析的特殊情形。典型相關分析是多個變量與多個變量之間的相關分析。四、距離分析是對觀測量之間或變量之間相似或不相似程度的一種測度,是一種廣義的距離。有關的統(tǒng)計量。不相似性測度:a、對等間隔(定距)數(shù)據(jù)的不相似性(距離)測度可以使用的統(tǒng)計量有Euclid歐氏距離、歐氏距離平方等。b、對計數(shù)數(shù)據(jù)使用卡方。c、對二值(只有兩種取值)數(shù)據(jù),使用歐氏距離、歐氏距離平方、尺寸差異、模式差異、方差等相似性測度:a、等間隔數(shù)據(jù)使用統(tǒng)計量Pearson相關或余弦。b、測度二元數(shù)據(jù)的相似性使用的統(tǒng)計量有20余種。距離分析分為觀測量之間距離分析和變量之間距離分析。距離分析實例實例:zlh.miany仍使用四川綿陽地區(qū)3年生中山柏的數(shù)據(jù)。觀測量間的距離分析(不相似性測度,使用歐氏距離),分析月生長量hgrowVariables分析變量:月生長量hgrowLabelCaseby:月份MonthComputeDistances:BetweenCaseMeasure:不相似性測度結果:觀測量間的歐氏距離(1月與8月的生長量最不相似,其歐氏距離值為19.290,而1月與2月生長量不相似性最小,值為0.490)變量間的不相似性Variables分析變量:temp、rain、hsun、humiComputeDistances:BetweenVariablesMeasure:不相似性測度,歐氏距離,分析變量測度的單位不同,所以要進行標準化,TransformValues:ByVariable,ZScore結果:變量間的歐氏距離矩陣(不相似矩陣)還可以重新進行相似性分析,得Pearson相關系數(shù)矩陣,然后跟歐氏距離矩陣相比較。距離分析的主對話框圖不相似性距離測度選擇項對話框

相似性測度選擇項對話框

距離分析實例

觀測量間的歐氏距離變量間不相似性分析例題輸出變量間的不相似性測度標準化后的歐氏距離變量間的相似性測度例題相關系數(shù)矩陣相關分析SAS過程:CORRCORR相關過程PROCCORR選擇項;VAR變量;WITH變量;BY變量;PARTIAL變量;FREQ變量;WEIGHT變量;RUN;一元線性回歸模型多元線性回歸模型可轉(zhuǎn)化為線性的回歸模型回歸診斷§2回歸分析1)如何實現(xiàn)預測,即如何由1個或多個指標(自變量)的值去推算另1個或多個指標(因變量)的值。2)如何實現(xiàn)控制,即事先給出產(chǎn)品質(zhì)量應達到的標準(自變量的取值范圍),根據(jù)變量之間的數(shù)量關系去控制那些影響產(chǎn)品質(zhì)量的因素(因變量)的變化區(qū)間。3)如何實現(xiàn)修勻,由于所研究的指標帶有變異性,當用散布圖將變量之間的關系呈現(xiàn)出來時,散點所形成的軌跡并非像數(shù)學中初等函數(shù)那樣有規(guī)律,需要用合適的數(shù)學方法(如用直線或某種光滑曲線)對資料進行修勻,使變量之間本質(zhì)聯(lián)系更清楚地呈現(xiàn)出來。回歸分析要解決的問題描述因變量y如何依賴于自變量x和誤差項

的方程稱為回歸模型一元線性回歸模型可表示為

y=b0+b1x+ey是x的線性函數(shù)(部分)加上誤差項線性部分反映由于x的變化而引起的y的變化誤差項

是隨機變量反映了除x和y之間的線性關系之外的隨機因素對y的影響是不能由x和y之間的線性關系所解釋的變異性0和1稱為模型的參數(shù)一、一元線性回歸模型假設1、解釋變量X是確定性變量,不是隨機變量;假設2、隨機誤差項具有零均值、同方差和不序列相關性:E(e

i)=0i=1,2,…,nVar(e

i)=2i=1,2,…,nCov(e

i,e

j)=0i≠ji,j=1,2,…,n

假設3、隨機誤差項e與解釋變量X之間不相關:Cov(Xi,e

i)=0i=1,2,…,n

假設4、e服從零均值、同方差、零協(xié)方差的正態(tài)分布

e

i~N(0,2)i=1,2,…,n一元線性回歸模型(基本假定)參數(shù)估計:最小二乘估計(methodofleastsquares)德國科學家KarlGauss(1777—1855)提出用最小化圖中垂直方向的誤差平方和來估計參數(shù)即:2.用最小二乘法擬合的直線來代表x與y之間的關系與實際數(shù)據(jù)的誤差比其他任何直線都小

根據(jù)最小二乘法,可得求解和的公式如下回歸的評價總變異回歸闡明部分回歸未闡明部分SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{誤差平方和的分解總平方和(SST—totalsumofsquares)反映因變量的n個觀察值與其均值的總誤差回歸平方和(SSR—sumofsquaresofregression)反映自變量x的變化對因變量y取值變化的影響,或者說,是由于x與y之間的線性關系引起的y的取值變化,也稱為可解釋的平方和殘差平方和(SSE—sumofsquaresoferror)反映除x以外的其他因素對y取值的影響,也稱為不可解釋的平方和或剩余平方和平方和的意義回歸平方和占總誤差平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間

R21,說明回歸方程擬合的越好;R20,說明回歸方程擬合的越差判定系數(shù)R2

(擬合優(yōu)度)

(coefficientofdetermination)修正擬合優(yōu)度檢驗自變量與因變量之間的線性關系是否顯著將回歸均方(MSR)同殘差均方(MSE)加以比較,應用F檢驗來分析二者之間的差別是否顯著回歸均方:回歸平方和SSR除以相應的自由度(自變量的個數(shù)k)殘差均方:殘差平方和SSE除以相應的自由度(n-k-1)線性關系的檢驗提出假設H0:1=0線性關系不顯著2.

計算檢驗統(tǒng)計量F確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F

作出決策:若F>F,拒絕H0;若F<F,不拒絕H0線性關系檢驗步驟線性關系的檢驗(方差分析表)提出假設H0:b1=0(沒有線性關系)H1:b1

0(有線性關系)計算檢驗的統(tǒng)計量確定顯著性水平,并進行決策t>t,拒絕H0;t<t,不拒絕H0回歸系數(shù)的檢驗(檢驗步驟)P值的應用實例:今收集了我國1978年改革開放以來到2001年共24年的稅收(x,百億元)和財政收入(y,百億元)數(shù)據(jù),以分析稅收與財政收入之間的依存關系(data:zlh.czss)datazlh.czss;inputyearxy;cards;1978 5.1928 11.32621979 5.3782 11.43681980 5.717 11.59931981 6.2989 11.75791982 7.0002 12.12531983 7.5559 18.66951984 9.4735 16.42861985 20.4079 20.04821986 20.9073 21.22011987 21.4036 21.99351988 23.9047 23.57241989 27.274 26.6491990 28.2187 29.3711991 29.9017 31.49481992 36.9691 34.83371993 42.533 43.48951994 51.2688 52.1811995 60.3804 62.4221996 69.0982 74.07991997 82.3404 86.51141998 92.628 98.75951999 106.8258 114.44082000 125.8151 133.95232001 153.0138 163.8604;run;procregdata=zlh.czss;modely=x;ploty*x/symbol='*';run;

多元線性回歸模型:表現(xiàn)在線性回歸模型中的解釋變量有多個。

一般表現(xiàn)形式:i=1,2…,n其中:k為解釋變量的數(shù)目,j稱為回歸參數(shù)(regressioncoefficient)。

習慣上:把常數(shù)項看成為一虛變量的系數(shù),該虛變量的樣本觀測值始終取1。這樣:

模型中解釋變量的數(shù)目為(k+1)

二、多元線性回歸模型也被稱為總體回歸函數(shù)的隨機表達形式。它的非隨機表達式為:

方程表示:各變量X值固定時Y的平均響應。

j也被稱為偏回歸系數(shù),表示在其他解釋變量保持不變的情況下,Xj每變化1個單位時,Y的均值E(Y)的變化;或者說j給出了Xj的單位變化對Y均值的“直接”或“凈”(不含其他變量)影響??傮w回歸模型n個隨機方程的矩陣表達式為

其中樣本回歸函數(shù):用來估計總體回歸函數(shù)其隨機表示式:

ei稱為殘差或剩余項(residuals),可看成是總體回歸函數(shù)中隨機擾動項i的近似替代。

樣本回歸函數(shù)的矩陣表達:

或其中:假設1,解釋變量是非隨機的或固定的,且各X之間互不相關(無多重共線性)。假設2,隨機誤差項具有零均值、同方差及不序列相關性假設3,解釋變量與隨機項不相關

假設4,隨機項滿足正態(tài)分布

多元線性回歸模型的基本假定

上述假設的矩陣符號表示式:假設1,n(k+1)矩陣X是非隨機的,且X的秩=k+1,即X滿秩。假設2,

假設3,E(X’)=0,即

假設4,向量

有一多維正態(tài)分布,即

同一元回歸一樣,多元回歸還具有如下兩個重要假設:假設5,樣本容量趨于無窮時,各解釋變量的方差趨于有界常數(shù),即n∞時,

或其中:Q為一非奇異固定矩陣,矩陣x是由各解釋變量的離差為元素組成的nk階矩陣

假設6,回歸模型的設定是正確的。

參數(shù)的最小二乘法求解各回歸參數(shù)的標準方程如下使因變量的觀察值與估計值之間的離差平方和達到最小來求得

。即若X列滿秩,即列秩為k+1二元回歸幾何解釋(觀察到的y)回歸面0ix1yx2(x1,x2)}提出假設H0:12k=0線性關系不顯著H1:1,2,k至少有一個不等于02.計算檢驗統(tǒng)計量F確定顯著性水平和分子自由度k、分母自由度n-k-1找出臨界值F

4.作出決策:若F>F

,拒絕H0線性關系檢驗提出假設H0:bi=0(自變量xi

因變量y沒有線性關系)H1:bi

0(自變量xi

因變量y有線性關系)計算檢驗的統(tǒng)計量t

確定顯著性水平,并進行決策t>t,拒絕H0;

t<t,不拒絕H0回歸系數(shù)的檢驗datasale;inputyx1x2;cards;162274245012018032542233753802131205283867862347169266378281983708192330245011619521375553256025243040202323724427144236266010315720882123702605;proc

reg;/*調(diào)用reg過程*/modely=x1x2;/*自變量是x1和x2,因變量是y*/run;實例:銷售量數(shù)據(jù)參數(shù)的置信區(qū)間用來考察:在一次抽樣中所估計的參數(shù)值離參數(shù)的真實值有多“近”。在變量的顯著性檢驗中已經(jīng)知道:容易推出:在(1-)的置信水平下i的置信區(qū)間是

其中,t/2為顯著性水平為、自由度為n-k-1的臨界值。

參數(shù)的置信區(qū)間增大樣本容量n,因為在同樣的樣本容量下,n越大,t分布表中的臨界值越小,同時,增大樣本容量,還可使樣本參數(shù)估計量的標準差減??;提高模型的擬合優(yōu)度,因為樣本參數(shù)估計量的標準差與殘差平方和呈正比,模型優(yōu)度越高,殘差平方和應越小。提高樣本觀測值的分散度,一般情況下,樣本觀測值越分散,(X’X)-1的分母的|X’X|的值越大,致使區(qū)間縮小。如何才能縮小置信區(qū)間?模型預測:E(Y0)的置信區(qū)間與Y0的置信區(qū)間

對于模型

給定樣本以外的解釋變量的觀測值X0=(1,X10,X20,…,Xk0),可以得到被解釋變量的預測值:它可以是總體均值E(Y0)或個值Y0的預測。但嚴格地說,這只是被解釋變量的預測值的估計值,而不是預測值。

為了進行科學預測,還需求出預測值的置信區(qū)間,包括E(Y0)和Y0的置信區(qū)間。

1、E(Y0)的置信區(qū)間于是,得到(1-)的置信水平下E(Y0)的置信區(qū)間:

其中,t/2為(1-)的置信水平下的臨界值。e0服從正態(tài)分布,即

構造t統(tǒng)計量

可得給定(1-)的置信水平下Y0的置信區(qū)間:

2、Y0的置信區(qū)間datazlh.sale;inputyx1x2;cards;162274245012018032542233753802131205283867862347169266378281983708192330245011619521375553256025243040202323724427144236266010315720882123702605.2003000;procreg;modely=x1x2/cliclm;run;1、倒數(shù)模型、多項式模型與變量的直接置換法

例如,描述稅收與稅率關系的拉弗曲線:拋物線s=a+br+cr2c<0s:稅收;r:稅率設X1=r,X2=r2,則原方程變換為s=a+bX1+cX2c<0

三、可線性化的非線性模型2、冪函數(shù)模型、指數(shù)函數(shù)模型與對數(shù)變換法

例如,Cobb-Dauglas生產(chǎn)函數(shù):冪函數(shù)Q=AKLQ:產(chǎn)出量,K:投入的資本;L:投入的勞動方程兩邊取對數(shù):lnQ=lnA+lnK+lnL3、復雜函數(shù)模型與級數(shù)展開法

方程兩邊取對數(shù)后,得到:

(1+2=1)Q:產(chǎn)出量,K:資本投入,L:勞動投入:替代參數(shù),1、2:分配參數(shù)例如,常替代彈性CES生產(chǎn)函數(shù)將式中l(wèi)n(1K-+2L-)在=0處展開臺勞級數(shù),取關于的線性項,即得到一個線性近似式。如取0階、1階、2階項,可得

實例:美國1790-1970每10年統(tǒng)計一次全國人口數(shù),以時間t(公元)為自變量,人口數(shù)為因變量,17901800181018201830184018501860187018803929530872399638128661706923191314433981850155189019001910192019301940195019601970629477599491972105710122775131669151325179323203211datazlh.uspop1;dot=1790to1970by10;inputp@@;tt=t*t;output;end;cards;3929 5308 7239 9638 12866 17069 23191 31443 39818 5015562947 75994 91972 105710 122775 131669 151325 179323 203211;procreg;modelp=ttt;run;datazlh.uspop2;dot=1790

to

1970

by

10;inputp@@;s=(t-1700)/100;/*賦值語句計算出s的值*/ss=s*s;/*賦值語句計算出的值*/output;end;cards;3929 5308 7239 9638 12866 17069 23191 31443 39818 5015562947 75994 91972 105710 122775 131669 151325 179323 203211;proc

reg;model

p=sss;run;

實例:經(jīng)鉆探,某地區(qū)煤礦上表面高度h數(shù)據(jù)如表:其中x為橫坐標,y為縱坐標。建立上表面高度h的回歸方程(作趨勢面分析)。為了簡單,我們用x和y的二次多項式擬合這組數(shù)據(jù)(實際操作時,可能是三次,甚至四次多項式)。即建立回歸模型

其中是零均值隨機變量。

datacorn;inputxyh;t1=x;t2=y;t3=x*x;t4=x*y;t5=y*y;cards;2.00 6 -112.00 5.5 02.00 5 102.00 4.5 202.00 4 312.25 6 -112.25 5.5 -12.25 5.0 92.25 4.5 192.25 4.0 302.50 6.0 -122.50 5.5 -22.50 5.0 82.50 4.5 192.50 4.0 292.75 6.0 -132.75 5.5 -22.75 5.0 72.75 4.5 182.75 4.0 283.00 6.0 -143.00 5.0 133.00 5.0 63.00 4.5 173.00 4.0 27;proc

reg;modelh=t1-t5;run;多元線性回歸模型選擇

在上述例中用二次多項式擬合時,有5個自變量的方冪或交叉積當作預報因子,當用三次,四次多項式擬合時,隨著多項式次數(shù)升高,預報因子個數(shù)急劇增加。例如地質(zhì)學中的趨勢面分析,自變量個數(shù)為2,多項式次數(shù)為4時,預報因子個數(shù)為1+2+3+4+5=15。在氣象,經(jīng)濟等問題中,有時自變量本身個數(shù)也非常多,例如自變量是在海洋20個地點,每個地點9個時段海水表面的溫度,這時自變量有180個。過多的自變量不僅使計算復雜,也不能抓住主要因素,還給計算帶來麻煩(X’X不滿秩或行列式近于零),從而降低精度。有許多數(shù)學原則可以用來選擇自變量,從而確定回歸模型,例如F檢驗法,復相關系數(shù)最大原則、修正復相關系數(shù)最大原則、統(tǒng)計量最小原則、統(tǒng)計量最小原則、統(tǒng)計量、平均估計方差(AEV)、刀切法(PRESS)、AIC、BIC實例:某種水泥在凝固時放出的熱量y(卡/克)與水泥中下列4種化學成分比例有關:的比例(%):,13次試驗數(shù)據(jù)如表,試用向前選擇法,向后選擇法,逐步回歸法選擇模型。datazlh.cement;inputx1-x4y;cards;72666078.5129155274.31156820104.3113184787.675263395.91155922109.2371176102.7131224472.5254182293.12147426115.9140233483.81166912113.31068812109.4;procregdata=cement;modely=x1-x4/selection=forward;/*向前選擇法*/run;procregdata=cement;modely=x1-x4/selection=backward;/*向后選擇法*/run;procregdata=cement;modely=x1-x4/selection=stepwise;/*逐步回歸法*/run;四、回歸診斷線性關系的F檢驗、自變量顯著性的t檢驗、殘差檢驗、多重共線性分析、影響分析、異方差檢驗、自相關檢驗等。其中線性關系的F檢驗、自變量顯著性的t檢驗已介紹,本節(jié)介紹多重共線性分析和影響分析。這兩個回歸診斷的目的是分別考察:是否存在自變量(包括常數(shù)項),它是其它自變量(包括常數(shù)項)的線性組合,或近似的是其它自變量的線性組合。-----------共線性診斷觀測數(shù)據(jù)是否存在異常點(outlier)。-----影響分析

對于模型

Yi=0+1X1i+2X2i++kXki+ii=1,2,…,n其基本假設之一是解釋變量是互相獨立的。如果某兩個或多個解釋變量之間出現(xiàn)了相關性,則稱為多重共線性Multicollinearity。

共線性診斷

1、多重共線性的概念

如果存在

c1X1i+c2X2i+…+ckXki=0

i=1,2,…,n

其中:ci不全為0,則稱為解釋變量間存在完全共線性(perfectmulticollinearity)。如果存在

c1X1i+c2X2i+…+ckXki+Vi=0

i=1,2,…,n

其中ci不全為0,vi為隨機誤差項,則稱為近似共線性(approximatemulticollinearity)或交互相關(intercorrelated)。

在矩陣表示的線性回歸模型

Y=X+

中,完全共線性指:秩(X)<k+1,即中,至少有一列向量可由其他列向量(不包括第一列)線性表出。

如:X2=X1,則X2對Y的作用可由X1代替。一般地,產(chǎn)生多重共線性的主要原因有以下三個方面:1)變量相關的共同趨勢

時間序列樣本:經(jīng)濟繁榮時期,各基本經(jīng)濟變量(收入、消費、投資、價格)都趨于增長;衰退時期,又同時趨于下降。

橫截面數(shù)據(jù):生產(chǎn)函數(shù)中,資本投入與勞動力投入往往出現(xiàn)高度相關情況,大企業(yè)二者都大,小企業(yè)都小。

2)滯后變量的引入在經(jīng)濟模型中,往往需要引入滯后經(jīng)濟變量來反映真實的經(jīng)濟關系。例如,消費=f(當期收入,前期收入)顯然,兩期收入間有較強的線性相關性。2、實際問題中的多重共線性3)樣本資料的限制由于完全符合理論模型所要求的樣本數(shù)據(jù)較難收集,特定樣本可能存在某種程度的多重共線性。

一般經(jīng)驗:

時間序列數(shù)據(jù)樣本:簡單線性模型,往往存在多重共線性。

截面數(shù)據(jù)樣本:問題不那么嚴重,但多重共線性仍然是存在的。3、多重共線性的后果1)完全共線性下參數(shù)估計量不存在如果存在完全共線性,則(X’X)-1不存在,無法得到參數(shù)的估計量。的OLS估計量為:例:對離差形式的二元回歸模型如果兩個解釋變量完全相關,如x2=x1,則這時,只能確定綜合參數(shù)1+2的估計值:2)、近似共線性下OLS估計量非有效

近似共線性下,可以得到OLS參數(shù)估計量,但參數(shù)估計量方差的表達式為由于|X’X|0,引起(X’X)-1主對角線元素較大,使參數(shù)估計值的方差增大,OLS參數(shù)估計量非有效。仍以二元線性模型

y=1x1+2x2+為例:

恰為X1與X2的線性相關系數(shù)的平方r2由于r2

1,故1/(1-r2)1當完全不共線時,r2

=0

當近似共線時,0<

r2

<1當完全共線時,r2=1多重共線性使參數(shù)估計值的方差增大,1/(1-r2)為方差膨脹因子(VarianceInflationFactor,VIF)

方差膨脹因子表相關系數(shù)平方00.950.960.970.980.990.999方差膨脹因子125102025335010010003)、參數(shù)估計量含義不合理如果模型中兩個解釋變量具有線性相關性,例如X2=X1

,這時,X1和X2前的參數(shù)1、2并不反映各自與被解釋變量之間的結構關系,而是反映它們對被解釋變量的共同影響。

1、2已經(jīng)失去了應有的含義,于是經(jīng)常表現(xiàn)出似乎反常的現(xiàn)象:例如1本來應該是正的,結果恰是負的。4)、變量的顯著性檢驗失去意義存在多重共線性時參數(shù)估計值的方差與標準差變大容易使通過樣本計算的t值小于臨界值,誤導作出參數(shù)為0的推斷可能將重要的解釋變量排除在模型之外5)、模型的預測功能失效變大的方差容易使區(qū)間預測的“區(qū)間”變大,使預測失去意義。

多重共線性表現(xiàn)為解釋變量之間具有相關關系,所以用于多重共線性的檢驗方法主要是統(tǒng)計方法:方差膨脹因子(VIF)條件指數(shù)(conditionindex)方差比例法

多重共線性檢驗的任務是:

(1)檢驗多重共線性是否存在;(2)估計多重共線性的范圍,即判斷哪些變量之間存在共線性。4、多重共線性的檢驗共線性診斷-VIF方差膨脹因子(VIF)是對由于共線性而引起的參數(shù)估計量的方差增加的一個相對度量Rr2

是Xr關于模型中其它獨立變量回歸的R2一般采用VIF>10表明存在共線性問題ProcREG的Model語句加選項VIF共線性診斷-條件指數(shù)和方差比例條件指數(shù)(conditionindex)和方差比例

(varianceproportion)聯(lián)合使用可確認存在線性關系的變量組條件指數(shù)(hi=(lmax/li)1/2)在10-30間為弱相關在30-100間為中度相關大于100表明有強相關大的條件指數(shù)伴隨方差比例>0.5可確認有

共線性的獨立變量子集ProcREG:Model語句

加選項collin或collinoint方差比例法對每個自變量(包括常數(shù)項),求出來自每個主成分的方差所占的比例,它們稱為方差比例(其計算較復雜,不細述)。當條件指數(shù)大,而對應的兩個以上方差比例超過50%時,判定這些變量間存在相關性。SAS-REG過程的MODEL語句中,加選項collin,它指示電腦計算方差比例。實例:某健身房統(tǒng)計31個人的跑步運動狀況:年齡、體重、肺活量、1.5英里跑步時間、不運動時脈搏、跑步時脈搏、跑步時最大脈搏,以肺活量為因變量,其余變量為自變量,做共線性分析。datafitness;inputageweightoxyruntimerstpulserunpulsemaxpulse;cards;44 89.47 44.609 11.37 62 178 18240 75.07 45.313 10.07 62 185 18544 85.84 54.297 8.65 45 156 16842 68.15 59.571 8.17 40 166 17238 89.02 49.874 9.22 55 178 18047 77.45 44.811 11.63 58 176 17640 75.98 45.681 11.95 70 176 18043 81.19 49.091 10.85 64 162 17044 81.42 39.442 13.08 63 174 17638 81.87 60.055 8.63 48 170 18644 73.03 50.541 10.13 45 168 16845 87.66 37.388 14.03 56 186 19245 66.45 44.754 11.12 51 176 17647 79.15 47.273 10.6 47 162 16454 83.12 51.855 10.33 50 166 17049 81.42 49.156 8.95 44 180 18551 69.63 40.836 10.95 57 168 17251 77.91 46.672 10 48 162 16848 91.63 46.774 10.25 48 162 16449 73.37 50.388 10.08 67 168 16857 73.37 39.407 12.63 58 174 17654 79.38 46.08 11.17 62 156 16552 76.32 45.441 9.63 48 164 16650 70.87 54.625 8.92 48 146 15551 67.25 45.118 11.08 48 172 17254 91.63 39.203 12.88 44 168 17251 73.71 45.79 10.47 59 186 18857 59.08 50.545 9.93 49 148 15549 76.32 48.673 9.4 56 186 18848 61.24 47.92 11.5 52 170 17652 82.78 47.467 10.5 53 170 172;procreg;modeloxy=runtimeageweightrstpulserunpulsemaxpulse/vifcollin;run;如果模型被檢驗證明存在多重共線性,則需要發(fā)展新的方法估計模型,最常用的方法有三類。1)第一類方法:排除引起共線性的變量找出引起多重共線性的解釋變量,將它排除出去。以逐步回歸法得到最廣泛的應用。注意:這時剩余解釋變量參數(shù)的含義和值都發(fā)生了變化。5、克服多重共線性的方法2)第二類方法:差分法時間序列數(shù)據(jù)、線性模型:將原模型變換為差分模型:

Yi=1X1i+2X2i++kXki+i可以有效地消除原模型中的多重共線性。

一般講,增量之間的線性關系遠比總量之間的線性關系弱得多。

例如:表中國GDP與居民消費C的總量與增量數(shù)據(jù)(億元)年份CYC/Y△C△Y△C/△Y19781759.13605.60.48819792005.44074.00.492246.3468.40.52619802317.14551.30.509311.7477.30.65319812604.14901.40.531287.0350.10.82019822867.95489.20.522263.8587.80.44919833182.56076.30.524314.6587.10.53619843674.57164.40.513492.01088.10.45219854589.08792.10.522914.51627.70.56219865175.010132.80.511586.01340.70.43719875961.211784.70.506786.21651.90.47619887633.114704.00.5191671.92919.30.57319898523.516466.00.518890.41762.00.50519909113.218319.50.497589.71853.50.318199110315.921280.40.4851202.72960.90.406199212459.825863.70.4822143.94583.30.468199315682.434500.70.4553222.68637.00.373199420809.846690.70.4465127.412190.00.421199526944.558510.50.4616134.711819.80.519199632152.368330.40.4715207.89819.90.530199734854.674894.20.4652702.36563.80.412199836921.179003.30.4672066.54109.10.503199939334.482673.10.4762413.33669.80.658200042911.989112.50.4823577.56439.40.5563)第三類方法:減小參數(shù)估計量的方差

多重共線性的主要后果是參數(shù)估計量具有較大的方差,所以采取適當方法減小參數(shù)估計量的方差,雖然沒有消除模型中的多重共線性,但確能消除多重共線性造成的后果。例如:①增加樣本容量,可使參數(shù)估計量的方差減小。*②嶺回歸法(RidgeRegression)70年代發(fā)展的嶺回歸法,以引入偏誤為代價減小參數(shù)估計量的方差,具體方法是:引入矩陣D,使參數(shù)估計量為

其中矩陣D一般選擇為主對角陣,即D=aI,a為大于0的常數(shù)。顯然,與未含D的參數(shù)估計量相比,估計量有較小的方差。嶺回歸模型的SAS作法在procreg語句中加out=,graphics選項用以存儲輸出數(shù)據(jù)和加強圖形。在model語句中加ridge=選項用以給出嶺參數(shù)。增加plot語句plot/ridgeplot;畫圖。實例:某國1990到2000年進口總額(import),國民生產(chǎn)總值(GDP),總儲蓄量(save),總消費量(cosume)數(shù)據(jù)如表,試建立由國民生產(chǎn)總值,總儲蓄量,總消費量預報進口總額的經(jīng)驗公式。1、若用SAS計算無偏最小二乘估計,得經(jīng)驗回歸方程其中GDP系數(shù)為負數(shù),這與實際情況不符。實際情況中,GDP增大,輸入應當增加;GDP系數(shù)為負數(shù)卻導致,GDP增大輸入減少;細查原因,是共線性存在。為采用嶺回歸模型,使用下列程序dataimports;inputGDPsaveconsumeimport@@;cards;149.34.2108.115.9161.24.1114.816.4171.53.1123.219.0175.53.1126.919.1180.81.1132.118.8190.72.2137.720.4202.12.1146.022.7212.45.6154.126.5226.15.0162.328.1231.95.1164.327.6239.00.7167.626.3;procreg;modelimport=GDPsaveconsume/collinvif;run;procregdata=importsoutest=ridg1graphicsoutvif;/*作嶺回歸,結果存數(shù)據(jù)集ridge*/modelimport=GDPsaveconsume/ridge=0to0.1by0.00.5;/*指示SAS對嶺系數(shù)為0,0.01,0.02,0.03,0.04,0.05,0.06,0.09,0.1,0.2,0.3,0.4,0.5作嶺回歸*/plot/ridgeplot;/*畫圖,橫軸為嶺系數(shù),縱軸為被估計的參數(shù)*/procprintdata=ridg1;/*打印據(jù)集ridge所存嶺估計值*/run;從圖中可見嶺參數(shù)值大于0.02后幾條曲線都平穩(wěn)變化,于是取嶺參數(shù)為0.02。而表中豎寫的RIDGE所在列是嶺參數(shù)列,查其中嶺參數(shù)值為0.02的兩行,即6行和7行,第6行給出VIF的值,第7行給出的估計值:所以嶺回歸方程就是回歸診斷

影響分析(異常點、杠桿點、強影響點)表示殘差的圖形關于y的殘差圖標準化殘差圖用于判斷誤差的假定是否成立檢測有影響的觀測值1、殘差圖(residualplot)模型合適應改曲線模型不等方差觀測值不獨立殘差除以它的標準差也稱為Pearson殘差或半學生化殘差(semi-studentizedresiduals)計算公式為用以直觀地判斷誤差項服從正態(tài)分布這一假定是否成立若假定成立,標準化殘差的分布也應服從正態(tài)分布在標準化殘差圖中,大約有95%的標準化殘差在-2到+2之間2、標準化殘差圖(standardizedresidual)回歸診斷(SAS實現(xiàn))

識別異常觀測值在PROCREG的model語句加上選項r,就會

輸出與預測值和殘差有關的一些統(tǒng)計量。他

們可用于識別異常數(shù)據(jù)(outlier)及其影響!PROCREGDATA=數(shù)據(jù)集名

;

MODEL應變量=自變量/r;RUN;PredictValue預測值StdErrMeanPredict預測值標準差Residual殘差StdErrResidual殘差標準差StudentResidualstudent化的殘差-2-1012殘差顯著性圖Cook'sDCook'sD統(tǒng)計量殘差分布正態(tài)性有了殘差的數(shù)據(jù),就可對其運用圖形方法

或正式的分布正態(tài)性的檢驗在PROCREG可利用下列語句用圖形分析

殘差分布正態(tài)性PROCREGDATA=數(shù)據(jù)集名graphics;

MODEL應變量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論