版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
朱連華Tel京信息工程大學(xué)數(shù)理學(xué)院統(tǒng)計(jì)系E-mail:ahualian@126.com統(tǒng)計(jì)分析與SAS軟件應(yīng)用第四章相關(guān)與回歸分析相關(guān)分析相關(guān)系數(shù)的計(jì)算二個(gè)變量間的相關(guān)分析多個(gè)變量間的相關(guān)分析距離分析回歸分析一元線性回歸模型多元線性回歸模型可轉(zhuǎn)化為線性的回歸模型回歸診斷相關(guān)與回歸分析---變量間的關(guān)系§1相關(guān)分析相關(guān)系數(shù)的計(jì)算二個(gè)變量間的相關(guān)分析多個(gè)變量間的相關(guān)分析距離分析一、相關(guān)系數(shù)的計(jì)算:相關(guān)系數(shù)的計(jì)算有三種:Pearson相關(guān)系數(shù):對(duì)定距變量的數(shù)據(jù)進(jìn)行計(jì)算秩相關(guān):Spearman和Kendall相關(guān)系數(shù)對(duì)分類變量的數(shù)據(jù)或變量值的分布明顯非正態(tài)或分布不明時(shí),計(jì)算時(shí)先對(duì)離散數(shù)據(jù)進(jìn)行排序或?qū)Χň嘧兞恐蹬牛ㄇ螅┲认嚓P(guān)系數(shù)有關(guān)公式:Pearson積矩相關(guān)
Spearman相關(guān)系數(shù)式中Ri是第i個(gè)x值的秩,Si是第i個(gè)y值的秩。分別是Ri和Si的平均值。Kendall’stau-b:其中ti(或ui)是x(或y)的第i組結(jié)點(diǎn)x(或y)值的數(shù)目,n為觀測(cè)量數(shù)。關(guān)于相關(guān)系數(shù)統(tǒng)計(jì)意義的檢驗(yàn)
式中r是相關(guān)系數(shù),n是樣本觀測(cè)量數(shù),n-2是自由度。當(dāng)t>t0.05(n-2)時(shí),p<0.05拒絕原假設(shè);Pearson和Spearman相關(guān)系數(shù)假設(shè)檢驗(yàn)t值計(jì)算公式:二、兩個(gè)變量間的相關(guān)分析兩兩變量間的相關(guān):包括兩個(gè)連續(xù)變量間的相關(guān)(Pearson相關(guān))兩個(gè)等級(jí)(分類)變量間的秩相關(guān)(Spearman和Kendall相關(guān))a、連續(xù)變量間的相關(guān):Pearson。實(shí)例:zlh.gmsr:1962年-1988年安徽省國(guó)民收入與城鄉(xiāng)居民儲(chǔ)蓄存款余額兩個(gè)變量間的線性相關(guān)分析(income:國(guó)民收入,deposit:城鄉(xiāng)居民儲(chǔ)蓄存款余額,number:序號(hào),year:年份)。比較有用的結(jié)果:Pearson相關(guān)系數(shù)r=.976和其相應(yīng)的顯著性概率Sig=.000(顯然國(guó)民收入與存款余額之間是高度相關(guān)的)Pearson相關(guān)實(shí)例1zlh.gmsrdatazlh.gmsr;inputnumberyearincomedeposit;cards;1 1962 34.61 .592 1963 35.67 .713 1964 39.52 .854 1965 47.32 1.005 1966 54.14 1.226 1967 50.86 1.147 1968 49.69 1.328 1969 51.61 1.289 1970 65.06 1.3510 1971 72.57 1.6011 1972 77.72 1.8712 1973 83.57 2.2013 1974 82.00 2.5514 1975 87.44 2.6115 1976 95.63 2.7416 1977 97.23 3.1317 1978 103.81 3.9118 1979 116.29 5.7519 1980 127.87 8.7620 1981 150.29 12.1921 1982 161.47 16.3622 1983 180.20 20.9523 1984 221.17 28.3224 1985 271.81 38.4325 1986 310.53 55.4326 1987 357.86 75.2027 1988 444.78 89.83;run;proc
corrdata=zlh.gmsr;varincomedeposit;run;Pearson相關(guān)實(shí)例1安徽省國(guó)民收入與城鄉(xiāng)居民存款余額的相關(guān)分析(使用默認(rèn)參數(shù))b、等級(jí)(分類)變量間的秩相關(guān):Spearman和Kendall。實(shí)例:zlh.yhgz
銀行職工的起始工資salbegin和現(xiàn)工資salary與雇員的職務(wù)等級(jí)jobcat、受教育程度educ關(guān)系(比較有用的結(jié)果:Kendall秩相關(guān)系數(shù)r和其相應(yīng)的顯著性概率Sig(Kendall秩相關(guān)系數(shù)均>0.5,認(rèn)為中度相關(guān))實(shí)例:zlh.wsbs
某次全國(guó)武術(shù)女子前10名運(yùn)動(dòng)員長(zhǎng)拳和長(zhǎng)兵器兩項(xiàng)得分?jǐn)?shù)據(jù),要求分析這兩項(xiàng)得分是否存在線性相關(guān)(比較有用的結(jié)果:秩相關(guān)系數(shù)r和其相應(yīng)的顯著性概率Sig(秩相關(guān)系數(shù)均>0.5,認(rèn)為中度相關(guān))實(shí)例1zlh.yhgzproc
corrdata=zlh.yhgzpearsonspearmankendall;varsalary;witheducjobcat;run;proc
corrdata=zlh.yhgzpearsonspearmankendall;varsalbegin;witheducjobcatprevexp;run;/*id雇員序號(hào)gender性別bdate出生日期educ受教育年數(shù)jobcat工作分類salary薪水salbegin初始薪水jobtime本單位工作時(shí)間(月)prevexp過去工作經(jīng)歷(月)minority是否少數(shù)民族*/實(shí)例1zlh.yhgz左面程序的執(zhí)行結(jié)果,Pearson相關(guān)下表是執(zhí)行程序的結(jié)果,使用非參相關(guān):Spearman和Kendall‘stau-b方法計(jì)算相關(guān)系數(shù)。這兩個(gè)結(jié)果是不同的。Pearsom相關(guān)分析結(jié)果初始工資與受教育程度和職務(wù)等級(jí)高度相關(guān)(p<0.001),與以前的工作經(jīng)歷無關(guān)(p=0.327)。Spearman和Kendall‘stau-b的結(jié)果是與三者都是高度相關(guān)的p值均小于0.001。只是與以前工作經(jīng)歷相關(guān)系數(shù)較小0.133和0.186。應(yīng)該使用哪個(gè)輸出結(jié)果做結(jié)論呢?應(yīng)該查看變量的測(cè)度和進(jìn)行正態(tài)性分析。從上3個(gè)圖可以看出受教育年限、起始工資、以前工作經(jīng)歷(月)都不是正態(tài)分布;從變量屬性的測(cè)度類型看,職務(wù)等級(jí)是Order類型,只分3等,受教育程度也是分類變量少于24等,所以也屬于分類變量Order類型;左表是描述統(tǒng)計(jì)量的輸出,偏度和峰度度值都說明這些變量都非正態(tài)分布,因此應(yīng)該做非參相關(guān)。根據(jù)前頁(yè)第2個(gè)表格看出,起始工資的確定主要考慮了雇員的受教育程度和職務(wù)等級(jí)。也考慮了以前工作經(jīng)歷長(zhǎng)短。均為正相關(guān)。
根據(jù)前面對(duì)變量測(cè)度類型和正態(tài)性分析,當(dāng)前工資與各因素的相關(guān)關(guān)系的分析只采用Spearman和Kendall‘stau-b方法計(jì)算相關(guān)系數(shù)。(只有本企業(yè)工作經(jīng)歷時(shí)間偏度接近0)結(jié)論:當(dāng)前工資與以前工作經(jīng)歷的時(shí)間長(zhǎng)短無關(guān);與受教育年限、起始工資和職務(wù)高度相關(guān),與本單位工作時(shí)間長(zhǎng)短有一定的相關(guān)關(guān)系:p<0.05,但是相關(guān)系數(shù)僅為0.071。秩相關(guān)實(shí)例2zlh.wsbs;datazlh.wsbs;inputrankingscore1score2;cards;1 9.00 9.252 8.90 9.153 8.90 9.104 8.90 8.955 8.85 9.106 8.85 9.107 8.80 8.858 8.80 8.709 8.80 9.1010 8.80 9.10;run;proccorrdata=zlh.wsbsspearmankendall;varscore1score2;run;秩相關(guān)實(shí)例2
某次全國(guó)武術(shù)女子前10名運(yùn)動(dòng)員長(zhǎng)拳和長(zhǎng)兵器兩項(xiàng)得分?jǐn)?shù)據(jù),要求分析這兩項(xiàng)得分是否存在線性關(guān)系。
Kendall’stau-b與Spearman相關(guān)系數(shù)三、多元變量間的相關(guān)分析偏相關(guān)分析復(fù)相關(guān)分析典型相關(guān)分析(后續(xù))偏相關(guān)分析的概念線性相關(guān)分析計(jì)算兩個(gè)變量間的相關(guān)關(guān)系,分析兩個(gè)變量間線性關(guān)系的程度。往往因?yàn)榈谌齻€(gè)變量的作用,使相關(guān)系數(shù)不能真正反映兩個(gè)變量間的線性程度。如身高、體重與肺活量之間的關(guān)系。如果使用Pearson相關(guān)計(jì)算其相關(guān)系數(shù),可以得出肺活量與身高和體重均存在較強(qiáng)的線性關(guān)系。但實(shí)際上,如果對(duì)體重相同的人,分析身高和肺活量,是否身高越高,肺活量就越大呢?不是的。原因是身高與體重有線性關(guān)系,體重與肺活量存在線性關(guān)系,因此得出身高和肺活量之間存在著較強(qiáng)的線性關(guān)系的錯(cuò)誤結(jié)論。偏相關(guān)分析的任務(wù)就是在研究?jī)蓚€(gè)變量之間的線性相關(guān)關(guān)系時(shí)控制可能對(duì)其產(chǎn)生影響的變量。分析身高與肺活量之間的相關(guān)性,就要控制體重在相關(guān)分析中的影響。實(shí)際生活中有許多這樣的關(guān)系,如可以控制年齡和工作經(jīng)驗(yàn)兩個(gè)變量的影響,估計(jì)工資收入與受教育程度之間的相關(guān)關(guān)系??梢栽诳刂屏虽N售能力與各種其他經(jīng)濟(jì)指標(biāo)的情況下,研究銷售量與廣告費(fèi)用之間的關(guān)系等。偏相關(guān)的有關(guān)公式
以x1,x2,y三個(gè)變量為例來求在x2控制變量的影響下,y與x1的一階偏相關(guān)系數(shù):(1)先做y對(duì)x2,x1對(duì)x2的回歸
則e1、e2分別表示清除了x2對(duì)y和x1的影響后的y和x1的值。這兩個(gè)殘差之間的相關(guān)關(guān)系代表y和x1之間的純相關(guān)關(guān)系。
(2)
一階偏相關(guān)系數(shù)
類似:控制了兩個(gè)變量z1、z2,變量x、y之間的二階偏相關(guān)系數(shù):Pearson偏相關(guān)系數(shù)假設(shè)檢驗(yàn)的t統(tǒng)計(jì)量:其中,r是相應(yīng)的偏相關(guān)系數(shù),n是觀測(cè)量數(shù),k是控制變量的數(shù)目,n-k-2是自由度。當(dāng)t>t0.05(n-k-2)時(shí),p<0.05拒絕原假設(shè)偏相關(guān)分析實(shí)例:身高數(shù)據(jù)zlh.heightdatazlh.height;inputnheightweightvcp;cards;1 135.10 32.0 1.752 139.90 30.4 1.753 163.60 46.2 2.754 146.50 33.5 2.505 156.20 37.1 2.756 156.40 35.5 2.007 167.80 41.5 2.758 149.70 31.0 1.509 145.00 33.0 2.5010 148.50 37.2 2.2511 165.50 49.5 3.0012 135.00 27.6 1.2513 153.30 41.0 2.7514 152.00 32.0 1.7515 160.50 47.2 2.2516 153.00 32.0 1.7517 147.60 40.5 2.0018 157.50 43.3 2.2519 155.10 44.7 2.7520 160.50 37.5 2.0021 143.00 31.5 1.7522 149.90 33.9 2.2523 160.80 40.4 2.7524 159.00 38.5 2.2525 158.20 37.5 2.0026 150.00 36.0 1.7527 144.50 34.7 2.2528 154.60 39.5 2.5029 156.50 32.0 1.75;run;proc
corr;varheightvcp;partialweight;run;proc
corr;varweightvcp;partialheight;run;proc
corr;varheightweight;run;實(shí)例:身高數(shù)據(jù)假設(shè):肺活量與體重間無線性相關(guān)關(guān)系Significant=0.002,拒絕原假設(shè),說明肺活量和體重(控制了身高)高度相關(guān),相關(guān)系數(shù)為0.569。假設(shè):肺活量與身高間無線性相關(guān)關(guān)系。Significant=0.619,接受原假設(shè),說明肺活量和身高(控制了體重)沒有線性關(guān)系,相關(guān)系數(shù)為0.098。正是由于在身高和體重之間高度線性相關(guān),因此只做線性相關(guān)無法找到肺活量與身高和體重的真正的相關(guān)關(guān)系。結(jié)論是:肺活量與體重高度相關(guān),與身高無線性關(guān)系。復(fù)相關(guān)分析以上都是在把其它變量的影響完全排除在外的情況下研究?jī)蓚€(gè)變量之間的相關(guān)關(guān)系。但是在實(shí)際分析中,一個(gè)變量的變化往往要受到多種變量的綜合影響,這時(shí)就需要采用復(fù)相關(guān)分析方法。所謂復(fù)相關(guān),就是研究多個(gè)變量同時(shí)與某個(gè)變量之間的相關(guān)關(guān)系,度量復(fù)相關(guān)程度的指標(biāo)是復(fù)相關(guān)系數(shù)。
復(fù)相關(guān)系數(shù)的計(jì)算:設(shè)因變量為y,自變量為x1,…,xp;假定回歸模型為:則y與自變量x1,…,xp的相關(guān)分析轉(zhuǎn)化為y與的相關(guān)分析,y與自變量x1,…,xp的復(fù)相關(guān)系數(shù):
復(fù)相關(guān)系數(shù)反映了一個(gè)變量與另一組變量關(guān)系密切的程度。復(fù)相關(guān)系數(shù)的假設(shè)檢驗(yàn)等價(jià)于多變量回歸的方差分析結(jié)果,所以不必再作假設(shè)檢驗(yàn)。再看公式R根號(hào)里的分式實(shí)際上就是回歸離差平方和與總離差平方和的比值,反映了回歸貢獻(xiàn)的百分比值。所以常把稱為決定系數(shù)或相關(guān)指數(shù)。在評(píng)價(jià)多變量回歸方程、變量選擇、曲線回歸方程擬合的好壞程度中常會(huì)用到。復(fù)相關(guān)分析是典型相關(guān)分析的特殊情形。典型相關(guān)分析是多個(gè)變量與多個(gè)變量之間的相關(guān)分析。四、距離分析是對(duì)觀測(cè)量之間或變量之間相似或不相似程度的一種測(cè)度,是一種廣義的距離。有關(guān)的統(tǒng)計(jì)量。不相似性測(cè)度:a、對(duì)等間隔(定距)數(shù)據(jù)的不相似性(距離)測(cè)度可以使用的統(tǒng)計(jì)量有Euclid歐氏距離、歐氏距離平方等。b、對(duì)計(jì)數(shù)數(shù)據(jù)使用卡方。c、對(duì)二值(只有兩種取值)數(shù)據(jù),使用歐氏距離、歐氏距離平方、尺寸差異、模式差異、方差等相似性測(cè)度:a、等間隔數(shù)據(jù)使用統(tǒng)計(jì)量Pearson相關(guān)或余弦。b、測(cè)度二元數(shù)據(jù)的相似性使用的統(tǒng)計(jì)量有20余種。距離分析分為觀測(cè)量之間距離分析和變量之間距離分析。距離分析實(shí)例實(shí)例:zlh.miany仍使用四川綿陽(yáng)地區(qū)3年生中山柏的數(shù)據(jù)。觀測(cè)量間的距離分析(不相似性測(cè)度,使用歐氏距離),分析月生長(zhǎng)量hgrowVariables分析變量:月生長(zhǎng)量hgrowLabelCaseby:月份MonthComputeDistances:BetweenCaseMeasure:不相似性測(cè)度結(jié)果:觀測(cè)量間的歐氏距離(1月與8月的生長(zhǎng)量最不相似,其歐氏距離值為19.290,而1月與2月生長(zhǎng)量不相似性最小,值為0.490)變量間的不相似性Variables分析變量:temp、rain、hsun、humiComputeDistances:BetweenVariablesMeasure:不相似性測(cè)度,歐氏距離,分析變量測(cè)度的單位不同,所以要進(jìn)行標(biāo)準(zhǔn)化,TransformValues:ByVariable,ZScore結(jié)果:變量間的歐氏距離矩陣(不相似矩陣)還可以重新進(jìn)行相似性分析,得Pearson相關(guān)系數(shù)矩陣,然后跟歐氏距離矩陣相比較。距離分析的主對(duì)話框圖不相似性距離測(cè)度選擇項(xiàng)對(duì)話框
相似性測(cè)度選擇項(xiàng)對(duì)話框
距離分析實(shí)例
觀測(cè)量間的歐氏距離變量間不相似性分析例題輸出變量間的不相似性測(cè)度標(biāo)準(zhǔn)化后的歐氏距離變量間的相似性測(cè)度例題相關(guān)系數(shù)矩陣相關(guān)分析SAS過程:CORRCORR相關(guān)過程PROCCORR選擇項(xiàng);VAR變量;WITH變量;BY變量;PARTIAL變量;FREQ變量;WEIGHT變量;RUN;一元線性回歸模型多元線性回歸模型可轉(zhuǎn)化為線性的回歸模型回歸診斷§2回歸分析1)如何實(shí)現(xiàn)預(yù)測(cè),即如何由1個(gè)或多個(gè)指標(biāo)(自變量)的值去推算另1個(gè)或多個(gè)指標(biāo)(因變量)的值。2)如何實(shí)現(xiàn)控制,即事先給出產(chǎn)品質(zhì)量應(yīng)達(dá)到的標(biāo)準(zhǔn)(自變量的取值范圍),根據(jù)變量之間的數(shù)量關(guān)系去控制那些影響產(chǎn)品質(zhì)量的因素(因變量)的變化區(qū)間。3)如何實(shí)現(xiàn)修勻,由于所研究的指標(biāo)帶有變異性,當(dāng)用散布圖將變量之間的關(guān)系呈現(xiàn)出來時(shí),散點(diǎn)所形成的軌跡并非像數(shù)學(xué)中初等函數(shù)那樣有規(guī)律,需要用合適的數(shù)學(xué)方法(如用直線或某種光滑曲線)對(duì)資料進(jìn)行修勻,使變量之間本質(zhì)聯(lián)系更清楚地呈現(xiàn)出來?;貧w分析要解決的問題描述因變量y如何依賴于自變量x和誤差項(xiàng)
的方程稱為回歸模型一元線性回歸模型可表示為
y=b0+b1x+ey是x的線性函數(shù)(部分)加上誤差項(xiàng)線性部分反映由于x的變化而引起的y的變化誤差項(xiàng)
是隨機(jī)變量反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對(duì)y的影響是不能由x和y之間的線性關(guān)系所解釋的變異性0和1稱為模型的參數(shù)一、一元線性回歸模型假設(shè)1、解釋變量X是確定性變量,不是隨機(jī)變量;假設(shè)2、隨機(jī)誤差項(xiàng)具有零均值、同方差和不序列相關(guān)性:E(e
i)=0i=1,2,…,nVar(e
i)=2i=1,2,…,nCov(e
i,e
j)=0i≠ji,j=1,2,…,n
假設(shè)3、隨機(jī)誤差項(xiàng)e與解釋變量X之間不相關(guān):Cov(Xi,e
i)=0i=1,2,…,n
假設(shè)4、e服從零均值、同方差、零協(xié)方差的正態(tài)分布
e
i~N(0,2)i=1,2,…,n一元線性回歸模型(基本假定)參數(shù)估計(jì):最小二乘估計(jì)(methodofleastsquares)德國(guó)科學(xué)家KarlGauss(1777—1855)提出用最小化圖中垂直方向的誤差平方和來估計(jì)參數(shù)即:2.用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小
根據(jù)最小二乘法,可得求解和的公式如下回歸的評(píng)價(jià)總變異回歸闡明部分回歸未闡明部分SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{誤差平方和的分解總平方和(SST—totalsumofsquares)反映因變量的n個(gè)觀察值與其均值的總誤差回歸平方和(SSR—sumofsquaresofregression)反映自變量x的變化對(duì)因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和殘差平方和(SSE—sumofsquaresoferror)反映除x以外的其他因素對(duì)y取值的影響,也稱為不可解釋的平方和或剩余平方和平方和的意義回歸平方和占總誤差平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間
R21,說明回歸方程擬合的越好;R20,說明回歸方程擬合的越差判定系數(shù)R2
(擬合優(yōu)度)
(coefficientofdetermination)修正擬合優(yōu)度檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著將回歸均方(MSR)同殘差均方(MSE)加以比較,應(yīng)用F檢驗(yàn)來分析二者之間的差別是否顯著回歸均方:回歸平方和SSR除以相應(yīng)的自由度(自變量的個(gè)數(shù)k)殘差均方:殘差平方和SSE除以相應(yīng)的自由度(n-k-1)線性關(guān)系的檢驗(yàn)提出假設(shè)H0:1=0線性關(guān)系不顯著2.
計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F
作出決策:若F>F,拒絕H0;若F<F,不拒絕H0線性關(guān)系檢驗(yàn)步驟線性關(guān)系的檢驗(yàn)(方差分析表)提出假設(shè)H0:b1=0(沒有線性關(guān)系)H1:b1
0(有線性關(guān)系)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量確定顯著性水平,并進(jìn)行決策t>t,拒絕H0;t<t,不拒絕H0回歸系數(shù)的檢驗(yàn)(檢驗(yàn)步驟)P值的應(yīng)用實(shí)例:今收集了我國(guó)1978年改革開放以來到2001年共24年的稅收(x,百億元)和財(cái)政收入(y,百億元)數(shù)據(jù),以分析稅收與財(cái)政收入之間的依存關(guān)系(data:zlh.czss)datazlh.czss;inputyearxy;cards;1978 5.1928 11.32621979 5.3782 11.43681980 5.717 11.59931981 6.2989 11.75791982 7.0002 12.12531983 7.5559 18.66951984 9.4735 16.42861985 20.4079 20.04821986 20.9073 21.22011987 21.4036 21.99351988 23.9047 23.57241989 27.274 26.6491990 28.2187 29.3711991 29.9017 31.49481992 36.9691 34.83371993 42.533 43.48951994 51.2688 52.1811995 60.3804 62.4221996 69.0982 74.07991997 82.3404 86.51141998 92.628 98.75951999 106.8258 114.44082000 125.8151 133.95232001 153.0138 163.8604;run;procregdata=zlh.czss;modely=x;ploty*x/symbol='*';run;
多元線性回歸模型:表現(xiàn)在線性回歸模型中的解釋變量有多個(gè)。
一般表現(xiàn)形式:i=1,2…,n其中:k為解釋變量的數(shù)目,j稱為回歸參數(shù)(regressioncoefficient)。
習(xí)慣上:把常數(shù)項(xiàng)看成為一虛變量的系數(shù),該虛變量的樣本觀測(cè)值始終取1。這樣:
模型中解釋變量的數(shù)目為(k+1)
二、多元線性回歸模型也被稱為總體回歸函數(shù)的隨機(jī)表達(dá)形式。它的非隨機(jī)表達(dá)式為:
方程表示:各變量X值固定時(shí)Y的平均響應(yīng)。
j也被稱為偏回歸系數(shù),表示在其他解釋變量保持不變的情況下,Xj每變化1個(gè)單位時(shí),Y的均值E(Y)的變化;或者說j給出了Xj的單位變化對(duì)Y均值的“直接”或“凈”(不含其他變量)影響??傮w回歸模型n個(gè)隨機(jī)方程的矩陣表達(dá)式為
其中樣本回歸函數(shù):用來估計(jì)總體回歸函數(shù)其隨機(jī)表示式:
ei稱為殘差或剩余項(xiàng)(residuals),可看成是總體回歸函數(shù)中隨機(jī)擾動(dòng)項(xiàng)i的近似替代。
樣本回歸函數(shù)的矩陣表達(dá):
或其中:假設(shè)1,解釋變量是非隨機(jī)的或固定的,且各X之間互不相關(guān)(無多重共線性)。假設(shè)2,隨機(jī)誤差項(xiàng)具有零均值、同方差及不序列相關(guān)性假設(shè)3,解釋變量與隨機(jī)項(xiàng)不相關(guān)
假設(shè)4,隨機(jī)項(xiàng)滿足正態(tài)分布
多元線性回歸模型的基本假定
上述假設(shè)的矩陣符號(hào)表示式:假設(shè)1,n(k+1)矩陣X是非隨機(jī)的,且X的秩=k+1,即X滿秩。假設(shè)2,
假設(shè)3,E(X’)=0,即
假設(shè)4,向量
有一多維正態(tài)分布,即
同一元回歸一樣,多元回歸還具有如下兩個(gè)重要假設(shè):假設(shè)5,樣本容量趨于無窮時(shí),各解釋變量的方差趨于有界常數(shù),即n∞時(shí),
或其中:Q為一非奇異固定矩陣,矩陣x是由各解釋變量的離差為元素組成的nk階矩陣
假設(shè)6,回歸模型的設(shè)定是正確的。
參數(shù)的最小二乘法求解各回歸參數(shù)的標(biāo)準(zhǔn)方程如下使因變量的觀察值與估計(jì)值之間的離差平方和達(dá)到最小來求得
。即若X列滿秩,即列秩為k+1二元回歸幾何解釋(觀察到的y)回歸面0ix1yx2(x1,x2)}提出假設(shè)H0:12k=0線性關(guān)系不顯著H1:1,2,k至少有一個(gè)不等于02.計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平和分子自由度k、分母自由度n-k-1找出臨界值F
4.作出決策:若F>F
,拒絕H0線性關(guān)系檢驗(yàn)提出假設(shè)H0:bi=0(自變量xi
與
因變量y沒有線性關(guān)系)H1:bi
0(自變量xi
與
因變量y有線性關(guān)系)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量t
確定顯著性水平,并進(jìn)行決策t>t,拒絕H0;
t<t,不拒絕H0回歸系數(shù)的檢驗(yàn)datasale;inputyx1x2;cards;162274245012018032542233753802131205283867862347169266378281983708192330245011619521375553256025243040202323724427144236266010315720882123702605;proc
reg;/*調(diào)用reg過程*/modely=x1x2;/*自變量是x1和x2,因變量是y*/run;實(shí)例:銷售量數(shù)據(jù)參數(shù)的置信區(qū)間用來考察:在一次抽樣中所估計(jì)的參數(shù)值離參數(shù)的真實(shí)值有多“近”。在變量的顯著性檢驗(yàn)中已經(jīng)知道:容易推出:在(1-)的置信水平下i的置信區(qū)間是
其中,t/2為顯著性水平為、自由度為n-k-1的臨界值。
參數(shù)的置信區(qū)間增大樣本容量n,因?yàn)樵谕瑯拥臉颖救萘肯?,n越大,t分布表中的臨界值越小,同時(shí),增大樣本容量,還可使樣本參數(shù)估計(jì)量的標(biāo)準(zhǔn)差減??;提高模型的擬合優(yōu)度,因?yàn)闃颖緟?shù)估計(jì)量的標(biāo)準(zhǔn)差與殘差平方和呈正比,模型優(yōu)度越高,殘差平方和應(yīng)越小。提高樣本觀測(cè)值的分散度,一般情況下,樣本觀測(cè)值越分散,(X’X)-1的分母的|X’X|的值越大,致使區(qū)間縮小。如何才能縮小置信區(qū)間?模型預(yù)測(cè):E(Y0)的置信區(qū)間與Y0的置信區(qū)間
對(duì)于模型
給定樣本以外的解釋變量的觀測(cè)值X0=(1,X10,X20,…,Xk0),可以得到被解釋變量的預(yù)測(cè)值:它可以是總體均值E(Y0)或個(gè)值Y0的預(yù)測(cè)。但嚴(yán)格地說,這只是被解釋變量的預(yù)測(cè)值的估計(jì)值,而不是預(yù)測(cè)值。
為了進(jìn)行科學(xué)預(yù)測(cè),還需求出預(yù)測(cè)值的置信區(qū)間,包括E(Y0)和Y0的置信區(qū)間。
1、E(Y0)的置信區(qū)間于是,得到(1-)的置信水平下E(Y0)的置信區(qū)間:
其中,t/2為(1-)的置信水平下的臨界值。e0服從正態(tài)分布,即
構(gòu)造t統(tǒng)計(jì)量
可得給定(1-)的置信水平下Y0的置信區(qū)間:
2、Y0的置信區(qū)間datazlh.sale;inputyx1x2;cards;162274245012018032542233753802131205283867862347169266378281983708192330245011619521375553256025243040202323724427144236266010315720882123702605.2003000;procreg;modely=x1x2/cliclm;run;1、倒數(shù)模型、多項(xiàng)式模型與變量的直接置換法
例如,描述稅收與稅率關(guān)系的拉弗曲線:拋物線s=a+br+cr2c<0s:稅收;r:稅率設(shè)X1=r,X2=r2,則原方程變換為s=a+bX1+cX2c<0
三、可線性化的非線性模型2、冪函數(shù)模型、指數(shù)函數(shù)模型與對(duì)數(shù)變換法
例如,Cobb-Dauglas生產(chǎn)函數(shù):冪函數(shù)Q=AKLQ:產(chǎn)出量,K:投入的資本;L:投入的勞動(dòng)方程兩邊取對(duì)數(shù):lnQ=lnA+lnK+lnL3、復(fù)雜函數(shù)模型與級(jí)數(shù)展開法
方程兩邊取對(duì)數(shù)后,得到:
(1+2=1)Q:產(chǎn)出量,K:資本投入,L:勞動(dòng)投入:替代參數(shù),1、2:分配參數(shù)例如,常替代彈性CES生產(chǎn)函數(shù)將式中l(wèi)n(1K-+2L-)在=0處展開臺(tái)勞級(jí)數(shù),取關(guān)于的線性項(xiàng),即得到一個(gè)線性近似式。如取0階、1階、2階項(xiàng),可得
實(shí)例:美國(guó)1790-1970每10年統(tǒng)計(jì)一次全國(guó)人口數(shù),以時(shí)間t(公元)為自變量,人口數(shù)為因變量,17901800181018201830184018501860187018803929530872399638128661706923191314433981850155189019001910192019301940195019601970629477599491972105710122775131669151325179323203211datazlh.uspop1;dot=1790to1970by10;inputp@@;tt=t*t;output;end;cards;3929 5308 7239 9638 12866 17069 23191 31443 39818 5015562947 75994 91972 105710 122775 131669 151325 179323 203211;procreg;modelp=ttt;run;datazlh.uspop2;dot=1790
to
1970
by
10;inputp@@;s=(t-1700)/100;/*賦值語句計(jì)算出s的值*/ss=s*s;/*賦值語句計(jì)算出的值*/output;end;cards;3929 5308 7239 9638 12866 17069 23191 31443 39818 5015562947 75994 91972 105710 122775 131669 151325 179323 203211;proc
reg;model
p=sss;run;
實(shí)例:經(jīng)鉆探,某地區(qū)煤礦上表面高度h數(shù)據(jù)如表:其中x為橫坐標(biāo),y為縱坐標(biāo)。建立上表面高度h的回歸方程(作趨勢(shì)面分析)。為了簡(jiǎn)單,我們用x和y的二次多項(xiàng)式擬合這組數(shù)據(jù)(實(shí)際操作時(shí),可能是三次,甚至四次多項(xiàng)式)。即建立回歸模型
其中是零均值隨機(jī)變量。
datacorn;inputxyh;t1=x;t2=y;t3=x*x;t4=x*y;t5=y*y;cards;2.00 6 -112.00 5.5 02.00 5 102.00 4.5 202.00 4 312.25 6 -112.25 5.5 -12.25 5.0 92.25 4.5 192.25 4.0 302.50 6.0 -122.50 5.5 -22.50 5.0 82.50 4.5 192.50 4.0 292.75 6.0 -132.75 5.5 -22.75 5.0 72.75 4.5 182.75 4.0 283.00 6.0 -143.00 5.0 133.00 5.0 63.00 4.5 173.00 4.0 27;proc
reg;modelh=t1-t5;run;多元線性回歸模型選擇
在上述例中用二次多項(xiàng)式擬合時(shí),有5個(gè)自變量的方冪或交叉積當(dāng)作預(yù)報(bào)因子,當(dāng)用三次,四次多項(xiàng)式擬合時(shí),隨著多項(xiàng)式次數(shù)升高,預(yù)報(bào)因子個(gè)數(shù)急劇增加。例如地質(zhì)學(xué)中的趨勢(shì)面分析,自變量個(gè)數(shù)為2,多項(xiàng)式次數(shù)為4時(shí),預(yù)報(bào)因子個(gè)數(shù)為1+2+3+4+5=15。在氣象,經(jīng)濟(jì)等問題中,有時(shí)自變量本身個(gè)數(shù)也非常多,例如自變量是在海洋20個(gè)地點(diǎn),每個(gè)地點(diǎn)9個(gè)時(shí)段海水表面的溫度,這時(shí)自變量有180個(gè)。過多的自變量不僅使計(jì)算復(fù)雜,也不能抓住主要因素,還給計(jì)算帶來麻煩(X’X不滿秩或行列式近于零),從而降低精度。有許多數(shù)學(xué)原則可以用來選擇自變量,從而確定回歸模型,例如F檢驗(yàn)法,復(fù)相關(guān)系數(shù)最大原則、修正復(fù)相關(guān)系數(shù)最大原則、統(tǒng)計(jì)量最小原則、統(tǒng)計(jì)量最小原則、統(tǒng)計(jì)量、平均估計(jì)方差(AEV)、刀切法(PRESS)、AIC、BIC實(shí)例:某種水泥在凝固時(shí)放出的熱量y(卡/克)與水泥中下列4種化學(xué)成分比例有關(guān):的比例(%):,13次試驗(yàn)數(shù)據(jù)如表,試用向前選擇法,向后選擇法,逐步回歸法選擇模型。datazlh.cement;inputx1-x4y;cards;72666078.5129155274.31156820104.3113184787.675263395.91155922109.2371176102.7131224472.5254182293.12147426115.9140233483.81166912113.31068812109.4;procregdata=cement;modely=x1-x4/selection=forward;/*向前選擇法*/run;procregdata=cement;modely=x1-x4/selection=backward;/*向后選擇法*/run;procregdata=cement;modely=x1-x4/selection=stepwise;/*逐步回歸法*/run;四、回歸診斷線性關(guān)系的F檢驗(yàn)、自變量顯著性的t檢驗(yàn)、殘差檢驗(yàn)、多重共線性分析、影響分析、異方差檢驗(yàn)、自相關(guān)檢驗(yàn)等。其中線性關(guān)系的F檢驗(yàn)、自變量顯著性的t檢驗(yàn)已介紹,本節(jié)介紹多重共線性分析和影響分析。這兩個(gè)回歸診斷的目的是分別考察:是否存在自變量(包括常數(shù)項(xiàng)),它是其它自變量(包括常數(shù)項(xiàng))的線性組合,或近似的是其它自變量的線性組合。-----------共線性診斷觀測(cè)數(shù)據(jù)是否存在異常點(diǎn)(outlier)。-----影響分析
對(duì)于模型
Yi=0+1X1i+2X2i++kXki+ii=1,2,…,n其基本假設(shè)之一是解釋變量是互相獨(dú)立的。如果某兩個(gè)或多個(gè)解釋變量之間出現(xiàn)了相關(guān)性,則稱為多重共線性Multicollinearity。
共線性診斷
1、多重共線性的概念
如果存在
c1X1i+c2X2i+…+ckXki=0
i=1,2,…,n
其中:ci不全為0,則稱為解釋變量間存在完全共線性(perfectmulticollinearity)。如果存在
c1X1i+c2X2i+…+ckXki+Vi=0
i=1,2,…,n
其中ci不全為0,vi為隨機(jī)誤差項(xiàng),則稱為近似共線性(approximatemulticollinearity)或交互相關(guān)(intercorrelated)。
在矩陣表示的線性回歸模型
Y=X+
中,完全共線性指:秩(X)<k+1,即中,至少有一列向量可由其他列向量(不包括第一列)線性表出。
如:X2=X1,則X2對(duì)Y的作用可由X1代替。一般地,產(chǎn)生多重共線性的主要原因有以下三個(gè)方面:1)變量相關(guān)的共同趨勢(shì)
時(shí)間序列樣本:經(jīng)濟(jì)繁榮時(shí)期,各基本經(jīng)濟(jì)變量(收入、消費(fèi)、投資、價(jià)格)都趨于增長(zhǎng);衰退時(shí)期,又同時(shí)趨于下降。
橫截面數(shù)據(jù):生產(chǎn)函數(shù)中,資本投入與勞動(dòng)力投入往往出現(xiàn)高度相關(guān)情況,大企業(yè)二者都大,小企業(yè)都小。
2)滯后變量的引入在經(jīng)濟(jì)模型中,往往需要引入滯后經(jīng)濟(jì)變量來反映真實(shí)的經(jīng)濟(jì)關(guān)系。例如,消費(fèi)=f(當(dāng)期收入,前期收入)顯然,兩期收入間有較強(qiáng)的線性相關(guān)性。2、實(shí)際問題中的多重共線性3)樣本資料的限制由于完全符合理論模型所要求的樣本數(shù)據(jù)較難收集,特定樣本可能存在某種程度的多重共線性。
一般經(jīng)驗(yàn):
時(shí)間序列數(shù)據(jù)樣本:簡(jiǎn)單線性模型,往往存在多重共線性。
截面數(shù)據(jù)樣本:?jiǎn)栴}不那么嚴(yán)重,但多重共線性仍然是存在的。3、多重共線性的后果1)完全共線性下參數(shù)估計(jì)量不存在如果存在完全共線性,則(X’X)-1不存在,無法得到參數(shù)的估計(jì)量。的OLS估計(jì)量為:例:對(duì)離差形式的二元回歸模型如果兩個(gè)解釋變量完全相關(guān),如x2=x1,則這時(shí),只能確定綜合參數(shù)1+2的估計(jì)值:2)、近似共線性下OLS估計(jì)量非有效
近似共線性下,可以得到OLS參數(shù)估計(jì)量,但參數(shù)估計(jì)量方差的表達(dá)式為由于|X’X|0,引起(X’X)-1主對(duì)角線元素較大,使參數(shù)估計(jì)值的方差增大,OLS參數(shù)估計(jì)量非有效。仍以二元線性模型
y=1x1+2x2+為例:
恰為X1與X2的線性相關(guān)系數(shù)的平方r2由于r2
1,故1/(1-r2)1當(dāng)完全不共線時(shí),r2
=0
當(dāng)近似共線時(shí),0<
r2
<1當(dāng)完全共線時(shí),r2=1多重共線性使參數(shù)估計(jì)值的方差增大,1/(1-r2)為方差膨脹因子(VarianceInflationFactor,VIF)
方差膨脹因子表相關(guān)系數(shù)平方00.950.960.970.980.990.999方差膨脹因子125102025335010010003)、參數(shù)估計(jì)量含義不合理如果模型中兩個(gè)解釋變量具有線性相關(guān)性,例如X2=X1
,這時(shí),X1和X2前的參數(shù)1、2并不反映各自與被解釋變量之間的結(jié)構(gòu)關(guān)系,而是反映它們對(duì)被解釋變量的共同影響。
1、2已經(jīng)失去了應(yīng)有的含義,于是經(jīng)常表現(xiàn)出似乎反常的現(xiàn)象:例如1本來應(yīng)該是正的,結(jié)果恰是負(fù)的。4)、變量的顯著性檢驗(yàn)失去意義存在多重共線性時(shí)參數(shù)估計(jì)值的方差與標(biāo)準(zhǔn)差變大容易使通過樣本計(jì)算的t值小于臨界值,誤導(dǎo)作出參數(shù)為0的推斷可能將重要的解釋變量排除在模型之外5)、模型的預(yù)測(cè)功能失效變大的方差容易使區(qū)間預(yù)測(cè)的“區(qū)間”變大,使預(yù)測(cè)失去意義。
多重共線性表現(xiàn)為解釋變量之間具有相關(guān)關(guān)系,所以用于多重共線性的檢驗(yàn)方法主要是統(tǒng)計(jì)方法:方差膨脹因子(VIF)條件指數(shù)(conditionindex)方差比例法
多重共線性檢驗(yàn)的任務(wù)是:
(1)檢驗(yàn)多重共線性是否存在;(2)估計(jì)多重共線性的范圍,即判斷哪些變量之間存在共線性。4、多重共線性的檢驗(yàn)共線性診斷-VIF方差膨脹因子(VIF)是對(duì)由于共線性而引起的參數(shù)估計(jì)量的方差增加的一個(gè)相對(duì)度量Rr2
是Xr關(guān)于模型中其它獨(dú)立變量回歸的R2一般采用VIF>10表明存在共線性問題ProcREG的Model語句加選項(xiàng)VIF共線性診斷-條件指數(shù)和方差比例條件指數(shù)(conditionindex)和方差比例
(varianceproportion)聯(lián)合使用可確認(rèn)存在線性關(guān)系的變量組條件指數(shù)(hi=(lmax/li)1/2)在10-30間為弱相關(guān)在30-100間為中度相關(guān)大于100表明有強(qiáng)相關(guān)大的條件指數(shù)伴隨方差比例>0.5可確認(rèn)有
共線性的獨(dú)立變量子集ProcREG:Model語句
加選項(xiàng)collin或collinoint方差比例法對(duì)每個(gè)自變量(包括常數(shù)項(xiàng)),求出來自每個(gè)主成分的方差所占的比例,它們稱為方差比例(其計(jì)算較復(fù)雜,不細(xì)述)。當(dāng)條件指數(shù)大,而對(duì)應(yīng)的兩個(gè)以上方差比例超過50%時(shí),判定這些變量間存在相關(guān)性。SAS-REG過程的MODEL語句中,加選項(xiàng)collin,它指示電腦計(jì)算方差比例。實(shí)例:某健身房統(tǒng)計(jì)31個(gè)人的跑步運(yùn)動(dòng)狀況:年齡、體重、肺活量、1.5英里跑步時(shí)間、不運(yùn)動(dòng)時(shí)脈搏、跑步時(shí)脈搏、跑步時(shí)最大脈搏,以肺活量為因變量,其余變量為自變量,做共線性分析。datafitness;inputageweightoxyruntimerstpulserunpulsemaxpulse;cards;44 89.47 44.609 11.37 62 178 18240 75.07 45.313 10.07 62 185 18544 85.84 54.297 8.65 45 156 16842 68.15 59.571 8.17 40 166 17238 89.02 49.874 9.22 55 178 18047 77.45 44.811 11.63 58 176 17640 75.98 45.681 11.95 70 176 18043 81.19 49.091 10.85 64 162 17044 81.42 39.442 13.08 63 174 17638 81.87 60.055 8.63 48 170 18644 73.03 50.541 10.13 45 168 16845 87.66 37.388 14.03 56 186 19245 66.45 44.754 11.12 51 176 17647 79.15 47.273 10.6 47 162 16454 83.12 51.855 10.33 50 166 17049 81.42 49.156 8.95 44 180 18551 69.63 40.836 10.95 57 168 17251 77.91 46.672 10 48 162 16848 91.63 46.774 10.25 48 162 16449 73.37 50.388 10.08 67 168 16857 73.37 39.407 12.63 58 174 17654 79.38 46.08 11.17 62 156 16552 76.32 45.441 9.63 48 164 16650 70.87 54.625 8.92 48 146 15551 67.25 45.118 11.08 48 172 17254 91.63 39.203 12.88 44 168 17251 73.71 45.79 10.47 59 186 18857 59.08 50.545 9.93 49 148 15549 76.32 48.673 9.4 56 186 18848 61.24 47.92 11.5 52 170 17652 82.78 47.467 10.5 53 170 172;procreg;modeloxy=runtimeageweightrstpulserunpulsemaxpulse/vifcollin;run;如果模型被檢驗(yàn)證明存在多重共線性,則需要發(fā)展新的方法估計(jì)模型,最常用的方法有三類。1)第一類方法:排除引起共線性的變量找出引起多重共線性的解釋變量,將它排除出去。以逐步回歸法得到最廣泛的應(yīng)用。注意:這時(shí)剩余解釋變量參數(shù)的含義和值都發(fā)生了變化。5、克服多重共線性的方法2)第二類方法:差分法時(shí)間序列數(shù)據(jù)、線性模型:將原模型變換為差分模型:
Yi=1X1i+2X2i++kXki+i可以有效地消除原模型中的多重共線性。
一般講,增量之間的線性關(guān)系遠(yuǎn)比總量之間的線性關(guān)系弱得多。
例如:表中國(guó)GDP與居民消費(fèi)C的總量與增量數(shù)據(jù)(億元)年份CYC/Y△C△Y△C/△Y19781759.13605.60.48819792005.44074.00.492246.3468.40.52619802317.14551.30.509311.7477.30.65319812604.14901.40.531287.0350.10.82019822867.95489.20.522263.8587.80.44919833182.56076.30.524314.6587.10.53619843674.57164.40.513492.01088.10.45219854589.08792.10.522914.51627.70.56219865175.010132.80.511586.01340.70.43719875961.211784.70.506786.21651.90.47619887633.114704.00.5191671.92919.30.57319898523.516466.00.518890.41762.00.50519909113.218319.50.497589.71853.50.318199110315.921280.40.4851202.72960.90.406199212459.825863.70.4822143.94583.30.468199315682.434500.70.4553222.68637.00.373199420809.846690.70.4465127.412190.00.421199526944.558510.50.4616134.711819.80.519199632152.368330.40.4715207.89819.90.530199734854.674894.20.4652702.36563.80.412199836921.179003.30.4672066.54109.10.503199939334.482673.10.4762413.33669.80.658200042911.989112.50.4823577.56439.40.5563)第三類方法:減小參數(shù)估計(jì)量的方差
多重共線性的主要后果是參數(shù)估計(jì)量具有較大的方差,所以采取適當(dāng)方法減小參數(shù)估計(jì)量的方差,雖然沒有消除模型中的多重共線性,但確能消除多重共線性造成的后果。例如:①增加樣本容量,可使參數(shù)估計(jì)量的方差減小。*②嶺回歸法(RidgeRegression)70年代發(fā)展的嶺回歸法,以引入偏誤為代價(jià)減小參數(shù)估計(jì)量的方差,具體方法是:引入矩陣D,使參數(shù)估計(jì)量為
其中矩陣D一般選擇為主對(duì)角陣,即D=aI,a為大于0的常數(shù)。顯然,與未含D的參數(shù)估計(jì)量相比,估計(jì)量有較小的方差。嶺回歸模型的SAS作法在procreg語句中加out=,graphics選項(xiàng)用以存儲(chǔ)輸出數(shù)據(jù)和加強(qiáng)圖形。在model語句中加ridge=選項(xiàng)用以給出嶺參數(shù)。增加plot語句plot/ridgeplot;畫圖。實(shí)例:某國(guó)1990到2000年進(jìn)口總額(import),國(guó)民生產(chǎn)總值(GDP),總儲(chǔ)蓄量(save),總消費(fèi)量(cosume)數(shù)據(jù)如表,試建立由國(guó)民生產(chǎn)總值,總儲(chǔ)蓄量,總消費(fèi)量預(yù)報(bào)進(jìn)口總額的經(jīng)驗(yàn)公式。1、若用SAS計(jì)算無偏最小二乘估計(jì),得經(jīng)驗(yàn)回歸方程其中GDP系數(shù)為負(fù)數(shù),這與實(shí)際情況不符。實(shí)際情況中,GDP增大,輸入應(yīng)當(dāng)增加;GDP系數(shù)為負(fù)數(shù)卻導(dǎo)致,GDP增大輸入減少;細(xì)查原因,是共線性存在。為采用嶺回歸模型,使用下列程序dataimports;inputGDPsaveconsumeimport@@;cards;149.34.2108.115.9161.24.1114.816.4171.53.1123.219.0175.53.1126.919.1180.81.1132.118.8190.72.2137.720.4202.12.1146.022.7212.45.6154.126.5226.15.0162.328.1231.95.1164.327.6239.00.7167.626.3;procreg;modelimport=GDPsaveconsume/collinvif;run;procregdata=importsoutest=ridg1graphicsoutvif;/*作嶺回歸,結(jié)果存數(shù)據(jù)集ridge*/modelimport=GDPsaveconsume/ridge=0to0.1by0.00.5;/*指示SAS對(duì)嶺系數(shù)為0,0.01,0.02,0.03,0.04,0.05,0.06,0.09,0.1,0.2,0.3,0.4,0.5作嶺回歸*/plot/ridgeplot;/*畫圖,橫軸為嶺系數(shù),縱軸為被估計(jì)的參數(shù)*/procprintdata=ridg1;/*打印據(jù)集ridge所存嶺估計(jì)值*/run;從圖中可見嶺參數(shù)值大于0.02后幾條曲線都平穩(wěn)變化,于是取嶺參數(shù)為0.02。而表中豎寫的RIDGE所在列是嶺參數(shù)列,查其中嶺參數(shù)值為0.02的兩行,即6行和7行,第6行給出VIF的值,第7行給出的估計(jì)值:所以嶺回歸方程就是回歸診斷
影響分析(異常點(diǎn)、杠桿點(diǎn)、強(qiáng)影響點(diǎn))表示殘差的圖形關(guān)于y的殘差圖標(biāo)準(zhǔn)化殘差圖用于判斷誤差的假定是否成立檢測(cè)有影響的觀測(cè)值1、殘差圖(residualplot)模型合適應(yīng)改曲線模型不等方差觀測(cè)值不獨(dú)立殘差除以它的標(biāo)準(zhǔn)差也稱為Pearson殘差或半學(xué)生化殘差(semi-studentizedresiduals)計(jì)算公式為用以直觀地判斷誤差項(xiàng)服從正態(tài)分布這一假定是否成立若假定成立,標(biāo)準(zhǔn)化殘差的分布也應(yīng)服從正態(tài)分布在標(biāo)準(zhǔn)化殘差圖中,大約有95%的標(biāo)準(zhǔn)化殘差在-2到+2之間2、標(biāo)準(zhǔn)化殘差圖(standardizedresidual)回歸診斷(SAS實(shí)現(xiàn))
識(shí)別異常觀測(cè)值在PROCREG的model語句加上選項(xiàng)r,就會(huì)
輸出與預(yù)測(cè)值和殘差有關(guān)的一些統(tǒng)計(jì)量。他
們可用于識(shí)別異常數(shù)據(jù)(outlier)及其影響!PROCREGDATA=數(shù)據(jù)集名
;
MODEL應(yīng)變量=自變量/r;RUN;PredictValue預(yù)測(cè)值StdErrMeanPredict預(yù)測(cè)值標(biāo)準(zhǔn)差Residual殘差StdErrResidual殘差標(biāo)準(zhǔn)差StudentResidualstudent化的殘差-2-1012殘差顯著性圖Cook'sDCook'sD統(tǒng)計(jì)量殘差分布正態(tài)性有了殘差的數(shù)據(jù),就可對(duì)其運(yùn)用圖形方法
或正式的分布正態(tài)性的檢驗(yàn)在PROCREG可利用下列語句用圖形分析
殘差分布正態(tài)性PROCREGDATA=數(shù)據(jù)集名graphics;
MODEL應(yīng)變量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 吉首大學(xué)《解析幾何》2021-2022學(xué)年第一學(xué)期期末試卷
- 吉首大學(xué)《導(dǎo)視系統(tǒng)設(shè)計(jì)》2021-2022學(xué)年第一學(xué)期期末試卷
- 《機(jī)床夾具設(shè)計(jì)》試題5
- 吉林藝術(shù)學(xué)院《音樂文論寫作Ⅲ》2021-2022學(xué)年第一學(xué)期期末試卷
- 吉林藝術(shù)學(xué)院《社會(huì)市場(chǎng)調(diào)研》2021-2022學(xué)年期末試卷
- 2024年共同買彩票合同范本大全
- 2024年供貨商改名合同范本
- 2024年墩頂圍欄合同范本
- 2024年大型地坪租賃合同范本
- 2024年大律師忠誠(chéng)協(xié)議書模板
- 河南省信陽(yáng)市2024-2025學(xué)年七年級(jí)上學(xué)期期中歷史試題(含答案)
- 2024至2030年高分子吸水樹脂項(xiàng)目投資價(jià)值分析報(bào)告
- 期中測(cè)試卷(1-5單元)(試題)-2024-2025學(xué)年三年級(jí)上冊(cè)數(shù)學(xué)人教版
- DB11T 731-2010 室外照明干擾光限制規(guī)范
- 2024年學(xué)校食堂管理工作計(jì)劃(六篇)
- 學(xué)校食堂消毒記錄
- 塔吊使用安全協(xié)議書
- 民辦非企業(yè)單位理事會(huì)制度
- 地 理氣溫的變化和分布課時(shí)1課件-2024-2025學(xué)年七年級(jí)地理上冊(cè)(人教版2024)
- 臨床輸血的護(hù)理課件
- Unit4+My+space++Reading++The+1940s+House+課件高中英語滬教版(2020)必修第一冊(cè)
評(píng)論
0/150
提交評(píng)論