02一元線性回歸模型_第1頁
02一元線性回歸模型_第2頁
02一元線性回歸模型_第3頁
02一元線性回歸模型_第4頁
02一元線性回歸模型_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

PAGE1PAGE29經(jīng)濟(jì)學(xué)參考書目:高鴻業(yè),《西方經(jīng)濟(jì)學(xué):微觀部分(第三版)--21世紀(jì)經(jīng)濟(jì)學(xué)系列教材》,《西方經(jīng)濟(jì)學(xué):宏觀部分(第三版)--21世紀(jì)經(jīng)濟(jì)學(xué)系列教材》,中國人民大學(xué)出版社,2005年1月。《西方經(jīng)濟(jì)學(xué)學(xué)習(xí)與教學(xué)手冊(21世紀(jì)經(jīng)濟(jì)學(xué)系列教材)》,中國人民大學(xué)出版社,2005年6月。\o"搜索\"高鴻業(yè)\"的圖書"高鴻業(yè)\o"搜索\"劉鳳良\"的圖書"、劉鳳良,《20世紀(jì)西方經(jīng)濟(jì)學(xué)的發(fā)展》,商務(wù)印書館,2004年4月尹伯成,《西方經(jīng)濟(jì)學(xué)簡明教程(第5版)》,世紀(jì)出版集團(tuán)、上海人民出版社,2006年3月。4、伍柏麟、尹伯成,《經(jīng)濟(jì)學(xué)基礎(chǔ)教程--復(fù)旦博學(xué)·經(jīng)濟(jì)學(xué)系列》,復(fù)旦大學(xué)出版社,2002年3月。5、\o"搜索\"姚開建\"的圖書"姚開建\o"搜索\"梁小明\"的圖書"、梁小明,《西方經(jīng)濟(jì)學(xué)名著導(dǎo)讀--經(jīng)濟(jì)學(xué)經(jīng)典著作讀叢書》,中國經(jīng)濟(jì)出版社,2005年1月。6、\o"搜索\"梁小民\"的圖書"梁小民,《西方經(jīng)濟(jì)學(xué)教程(修訂版)》,中國統(tǒng)計(jì)出版社,2005年12月。7、方福前,《當(dāng)代西方經(jīng)濟(jì)學(xué)主要流派》,中國人民大學(xué)出版社,2004年12月。8、\o"搜索\"王志偉\"的圖書"王志偉,《現(xiàn)代西方經(jīng)濟(jì)學(xué)主要思潮及流派》,高等教育出版社,2004年9月。數(shù)學(xué)參考書目:9、趙萍,《經(jīng)濟(jì)數(shù)學(xué)基礎(chǔ)及應(yīng)用線性代數(shù)及概率論》,哈爾濱工業(yè)大學(xué)出版社,2006年10月。10、李尚志,《線性代數(shù)》,高等教育出版社,2006年5月。11、盧剛,《線性代數(shù)》,北京大學(xué)出版社,2006年。12、陳維新,《線性代數(shù)(第2版)》,北京科學(xué)出版社,2006年。13、冉兆平,《微積分》,上海財(cái)經(jīng)大學(xué)出版社,2006年。14、田長生,《概率統(tǒng)計(jì)與微積分》,北京科學(xué)出版社,2006年。15、李林曙,《微積分》,中國人民大學(xué)出版社,2006年。16、王雪標(biāo)、王拉娣、聶高輝,《微積分》,高等教育出版社,2006年。17、馬恩林,《概率論與數(shù)理統(tǒng)計(jì)》,人民教育出版社,2006年。18、吳贛昌,《概率論與數(shù)理統(tǒng)計(jì)》,中國人民大學(xué)出版社,2006年。19、葛余博等著,《概率論與數(shù)理統(tǒng)計(jì)通用輔導(dǎo)講義》,清華大學(xué)出版社,2006年。統(tǒng)計(jì)學(xué)參考書目:20、邢哲,《統(tǒng)計(jì)學(xué)原理》,中國金融出版社,2006年8月。21、李榮平,《統(tǒng)計(jì)學(xué)》,天津大學(xué)出版社,2006年。22、吳梅村,《數(shù)理統(tǒng)計(jì)學(xué)基本原理和方法》,西南財(cái)經(jīng)大學(xué)出版社,2006年。23、曾五一,《統(tǒng)計(jì)學(xué)》,中國金融出版社,2006年。24、(美)A.M.穆德、F.A.格雷比爾著、史定華譯,《統(tǒng)計(jì)學(xué)導(dǎo)論》,北京科學(xué)出版社,1978年。補(bǔ)充材料一、隨機(jī)變量及其數(shù)字特征隨機(jī)變量及其分布的研究是以事件及其概率的研究為基礎(chǔ)展開的。它是統(tǒng)計(jì)推斷的理論基礎(chǔ)。隨機(jī)變量定義:按一定的概率取不同實(shí)數(shù)值的變量稱為隨機(jī)變量,用x,y等表示。如(1)天津站每日的客流人數(shù)。(2)某商場日銷售電視機(jī)臺(tái)數(shù)。(3)某儲(chǔ)蓄所的日存款余額。(4)某地區(qū)居民的日用水量。(5)高速公路上單位時(shí)間內(nèi)通過的機(jī)動(dòng)車數(shù)量。(6)流水線上生產(chǎn)的罐裝啤酒的凈重值。若隨機(jī)變量x可能取的值為有限個(gè)或可列個(gè),則稱x為離散型隨機(jī)變量。若隨機(jī)變量x可能取的值是整個(gè)數(shù)軸,或數(shù)軸上的某個(gè)區(qū)間,則稱x為連續(xù)型隨機(jī)變量。連續(xù)型隨機(jī)變量的概率分布是通過隨機(jī)變量在一切可能區(qū)域內(nèi)取值的概率定義的。最常用和最簡便的形式是通過概率密度函數(shù)表示。對于隨機(jī)變量x,若存在非負(fù)可積函數(shù)f(x),(-<x<),使對任意實(shí)數(shù)a,b,(a<b)有P{axb}=則稱x為連續(xù)型隨機(jī)變量。f(x)為x的概率密度函數(shù)(簡稱概率密度或密度)。由上式知f(x)在[a,b]區(qū)間上的積分等于隨機(jī)變量x在[a,b]區(qū)間取值的概率。研究經(jīng)濟(jì)問題為什么還要學(xué)習(xí)隨機(jī)變量?因?yàn)樵S多經(jīng)濟(jì)問題都符合隨機(jī)變量的要求。通過隨機(jī)變量把經(jīng)濟(jì)問題上升到統(tǒng)計(jì)理論高度進(jìn)行研究,有利于找到經(jīng)濟(jì)變量變化的一般規(guī)律。1.1隨機(jī)變量的數(shù)學(xué)期望對于離散型隨機(jī)變量x,若有概率分布P{x=xi}=pi,(i=1,2,…,)則稱xipi為x的數(shù)學(xué)期望,簡稱為期望或均值。記作E(x)。對于連續(xù)型隨機(jī)變量x,若密度函數(shù)為f(x),則稱為x的數(shù)學(xué)期望。記作E(x)。期望屬于位置特征。用來描述隨機(jī)變量取值的集中位置。體現(xiàn)了隨機(jī)變量取值的平均大小。期望就是隨機(jī)變量取一切可能值的加權(quán)平均。其中的權(quán)數(shù)就是概率值。數(shù)學(xué)期望的性質(zhì)如下:(1)常量的期望就是這個(gè)常量本身。E(k)=k(2)常量與隨機(jī)變量和的期望等于這個(gè)隨機(jī)變量的期望與這個(gè)常量的和。E(x+k)=E(x)+k(3)常量與隨機(jī)變量乘積的期望等于這個(gè)常量與隨機(jī)變量期望的乘積。E(kx)=kE(x)(4)隨機(jī)變量的線性函數(shù)的期望等于這個(gè)隨機(jī)變量期望的同一線性函數(shù)。E(kx+c)=kE(x)+c(5)兩個(gè)隨機(jī)變量和(或差)的期望等于這兩個(gè)隨機(jī)變量期望的和(或差)。E(xy)=E(x)E(y)(6)兩個(gè)相互獨(dú)立隨機(jī)變量乘積的期望等于這兩個(gè)隨機(jī)變量期望的乘積。E(xy)=E(x)E(y)例:5個(gè)學(xué)生的英語考試分?jǐn)?shù)是80,70,85,90,82。則平均考試分?jǐn)?shù)E(x)==81.41.2隨機(jī)變量的方差、標(biāo)準(zhǔn)差隨機(jī)變量x對其均值的離差平方的數(shù)學(xué)期望,E[x-E(x)]2稱作隨機(jī)變量x的方差。記作Var(x)。則稱作x的標(biāo)準(zhǔn)差。方差和標(biāo)準(zhǔn)差用來描述隨機(jī)變量的離散特征。它們反映了隨機(jī)變量取值離散程度的大小。對于離散型隨機(jī)變量x,方差的定義是Var(x)=xi-E(x))2pi其中pi表示x取xi值時(shí)的概率。對于連續(xù)型隨機(jī)變量x,方差的定義是Var(x)=x-E(x)]2f(x)dx其中f(x)是x的概率密度函數(shù)。注意:(1)Var(x)的量綱是x的量綱的平方。(2)的量綱與x的量綱相同。隨機(jī)變量方差的性質(zhì):(1)常量的方差為零。Var(k)=0(2)隨機(jī)變量與常量之和的方差等于這個(gè)隨機(jī)變量的方差。Var(x+k)=Var(x)其中x為隨機(jī)變量,k為常量。(3)常量與隨機(jī)變量乘積的方差等于這個(gè)常量的平方與隨機(jī)變量方差的乘積。Var(kx)=k2Var(x)其中k為常量。證明:由方差定義Var(kx)=E[kx-E(kx)]2=E[kx-kE(x)]2=k2E[x-E(x)]2=k2Var(x)(4)隨機(jī)變量的方差等于這個(gè)隨機(jī)變量平方的期望減其期望的平方。Var(x)=E(x2)–[E(x)]2證明:由方差定義Var(x)=E[x-E(x)]2=E[x2–2xE(x)+[E(x)]2]=E(x2)–2E(x)E(x)+(E(x))2=E(x2)–(E(x))2(5)兩個(gè)相互獨(dú)立隨機(jī)變量之和(或差)的方差等于這兩個(gè)隨機(jī)變量方差的和。Var(xy)=Var(x)+Var(y)下面證明隨機(jī)變量之差情形。證明:由方差定義Var(x-y)=E[(x-y)–E(x-y)]2=E[x-y–E(x)-E(y)]2=E[(x–E(x))-(y-E(y))]2=E[(x–E(x))2+(y-E(y))2–2(x–E(x))(y-E(y))]=Var(x)+Var(y)–2E[(x–E(x))(y-E(y))]其中E(x–E(x))(y-E(y))是隨機(jī)變量x與y的協(xié)方差。因?yàn)閤與y相互獨(dú)立,所以E[(x–E(x))(y-E(y))]=0(見下面第3小節(jié),隨機(jī)變量的協(xié)方差)。上式的結(jié)果是Var(x-y)=Var(x)+Var(y)注意:兩個(gè)相互獨(dú)立隨機(jī)變量差的方差不等于這兩個(gè)隨機(jī)變量方差的差。(6)由性質(zhì)(5)有如下結(jié)論:若兩個(gè)隨機(jī)變量是相互非獨(dú)立的,其和與差的方差公式是,Var(x+y)=Var(x)+Var(y)+2Cov(x,y)Var(x-y)=Var(x)+Var(y)-2Cov(x,y)其中Cov(x,y)表示x與y的協(xié)方差(協(xié)方差概念見下)。1.3隨機(jī)變量的協(xié)方差協(xié)方差定義:隨機(jī)變量x,y分別對其均值的離差乘積的數(shù)學(xué)期望E[(x-E(x))(y-E(y))]稱作隨機(jī)變量x,y的協(xié)方差,記作Cov(x,y)。其中E(x),E(y)分別表示x,y的期望。協(xié)方差用來描述兩個(gè)隨機(jī)變量關(guān)系的緊密程度。對于離散型隨機(jī)變量x,y,協(xié)方差定義為Cov(x,y)=xi-E(x))(yj-E(y))p(xi,yj)其中p(xi,yj)=P(x=xi,y=yj)表示x=xi,y=yj條件下的概率。上式是協(xié)偏差[xi-E(x)][yj-E(y)]的加權(quán)平均。對于連續(xù)型隨機(jī)變量x,y,協(xié)方差定義為Cov(x,y)=x-E(x))(y-E(y))p(x,y)dxdy其中p(x,y)是x,y的概率密度函數(shù)。當(dāng)x,y相互獨(dú)立時(shí),Cov(x,y)=0。協(xié)方差的大小與x,y的量綱有關(guān)。一般來說,改變x,y的量綱,則x,y協(xié)方差的值也要改變。因此協(xié)方差所提供的主要信息是正值、負(fù)值還是零。注意:雖然兩個(gè)變量相互獨(dú)立,意味著協(xié)方差為零,但反過來不一定成立,即協(xié)方差為零,該兩個(gè)變量未必獨(dú)立(但肯定不存在線性相關(guān))。二、正態(tài)分布2.1正態(tài)分布與標(biāo)準(zhǔn)正態(tài)分布正態(tài)分布定義:若連續(xù)型隨機(jī)變量x的概率密度函數(shù)為f(x)=exp(-)其中,為常量,>0,則稱x服從正態(tài)分布。記作xN(,2)。,分別是x的數(shù)學(xué)期望和標(biāo)準(zhǔn)差??梢宰C明E(x)=xf(x)dx=xexp(-)dx=Var(x)=(x-)2f(x)dx=(x-)2exp(-)dx=2=三種不同參數(shù)的正態(tài)分布曲線見圖1。概率密度函數(shù)f(x)呈鐘形。最大值點(diǎn)在x=處。曲線以x=對稱。在x=處密度函數(shù)曲線有拐點(diǎn)。當(dāng)x時(shí),f(x)以x軸為漸近線。當(dāng)較大時(shí),f(x)曲線較平緩;當(dāng)較小時(shí),f(x)曲線較陡峭。已知和的值,就可以完全確定正態(tài)分布密度函數(shù)。對某產(chǎn)品的物理量測量常服從于正態(tài)分布。標(biāo)準(zhǔn)正態(tài)分布定義:對于正態(tài)分布密度函數(shù)f(x),當(dāng)=0,=1時(shí),即f0(x)=exp(-)稱連續(xù)型隨機(jī)變量x服從標(biāo)準(zhǔn)正態(tài)分布。記作xN(0,1)。對于標(biāo)準(zhǔn)正態(tài)分布E(x)=0,Var(x)==1。標(biāo)準(zhǔn)正態(tài)分布曲線見圖2。標(biāo)準(zhǔn)正態(tài)分布密度函數(shù)f0(x)有如下性質(zhì):(1)f0(x)以縱軸對稱;(2)x=0時(shí),f0(x)的極大值是1/=0.3989;(3)f0(x)在x=1處有兩個(gè)拐點(diǎn);(4)f0(x)=0。N(0,1)N(3,1.5)N(2,1)N(1,0.5)N(0,1)N(3,1.5)N(2,1)N(1,0.5)圖1正態(tài)分布曲線圖2標(biāo)準(zhǔn)正態(tài)分布曲線正態(tài)分布隨機(jī)變量的標(biāo)準(zhǔn)化。若xN(,2),a,b為任意實(shí)數(shù),且a<b,則P{axb}=exp(-)dx設(shè)Z=(x-)/,則(參見微積分中換元積分法)P{axb}=P{Z}=exp(-)dZ顯然Z是一個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量。當(dāng)xN(,2)時(shí),則Z=N(0,1)可見對一般正態(tài)分布隨機(jī)變量x做變換Z=(x-)/,則可以把x轉(zhuǎn)化為服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量Z。對一般正態(tài)分布隨機(jī)變量x計(jì)算概率非常不方便。通過標(biāo)準(zhǔn)化變換,利用標(biāo)準(zhǔn)正態(tài)分布累計(jì)概率表,則很容易計(jì)算出x取任意兩個(gè)值之間的概率。正態(tài)分布的線性性質(zhì):①若xiN(i,i2),(i=1,2,…,n),且相互獨(dú)立,則N(,)②若xiN(i,i2),(i=1,2,…,n)且相互獨(dú)立,ai0為常數(shù),則aixiN(aii,ai2i2)一元線性回歸模型對于經(jīng)濟(jì)變量之間的關(guān)系,一般分為兩類:一類是變量之間存在確定的函數(shù)關(guān)系。例如某企業(yè)t時(shí)期的銷售收入yt等于產(chǎn)品價(jià)格p與銷售量xt的乘積,用數(shù)學(xué)表達(dá)式表示為:yt=pxt另一類是變量之間存在著非確定的依賴關(guān)系。例如某家庭的收入和支出之間的關(guān)系,一般來講,家庭收入越多,支出也相應(yīng)越多。但是由于各種不確定的因素,使得不同時(shí)間內(nèi)同樣的收入會(huì)有不同的支出。這就造成了收入和支出之間關(guān)系的不確定性,因而不能給出類似于函數(shù)的精確表達(dá)式。用ut表示其他影響因素,將這兩個(gè)變量間非確定的依賴關(guān)系表示成下列形式:yt=f(xt)+ut為了分析和利用變量之間非確定的依賴關(guān)系,人們建立了各種統(tǒng)計(jì)分析方法,其中回歸分析是最常用的經(jīng)典方法之一。需要注意的是,回歸分析是用來處理一個(gè)被解釋變量(因變量)與另一個(gè)解釋變量(自變量)之間的關(guān)系,但它并不一定表明因果關(guān)系的存在;也就是說,它并不意味著自變量是原因,而因變量是結(jié)果。兩個(gè)變量是否存在因果關(guān)系,必須以(經(jīng)濟(jì))理論為判定基礎(chǔ),正如前面講到的需求法則,它表明:當(dāng)所有其他變量保持不變時(shí),一種商品的需求量依賴于(反向)該商品的價(jià)格。這里,微觀經(jīng)濟(jì)理論暗示了價(jià)格是原因,而需求量是結(jié)果??傊?,回歸并不意味著存在因果關(guān)系,因果關(guān)系的判定或推斷必須依據(jù)經(jīng)過實(shí)踐檢驗(yàn)的相關(guān)理論。1.一元線性回歸模型有一元線性回歸模型(統(tǒng)計(jì)模型)如下, yt=0+1xt+ut上式表示變量yt和xt之間的真實(shí)關(guān)系。其中yt稱被解釋變量(因變量),xt稱解釋變量(自變量),ut稱隨機(jī)誤差項(xiàng),0稱常數(shù)項(xiàng),1稱回歸系數(shù)(通常未知)。上面的模型可以分為兩部分。(1)回歸函數(shù)部分,E(yt)=0+1xt,(2)隨機(jī)部分,ut。圖2.1真實(shí)的回歸直線這種模型可以賦予各種實(shí)際意義,收入與支出的關(guān)系;如脈搏與血壓的關(guān)系;商品價(jià)格與供給量的關(guān)系;文件容量與保存時(shí)間的關(guān)系;林區(qū)木材采伐量與木材剩余物的關(guān)系;身高與體重的關(guān)系等。以收入與支出的關(guān)系為例。假設(shè)固定對一個(gè)家庭進(jìn)行觀察,隨著收入水平的不同,與支出呈線性函數(shù)關(guān)系。但實(shí)際上數(shù)據(jù)來自各個(gè)家庭,來自各個(gè)不同收入水平,使其他條件不變成為不可能,所以由數(shù)據(jù)得到的散點(diǎn)圖不在一條直線上(不呈函數(shù)關(guān)系),而是散在直線周圍,服從統(tǒng)計(jì)關(guān)系。隨機(jī)誤差項(xiàng)ut中可能包括家庭人口數(shù)不同,消費(fèi)習(xí)慣不同,不同地域的消費(fèi)指數(shù)不同,不同家庭的外來收入不同等因素。所以在經(jīng)濟(jì)問題上“控制其他因素不變”是不可能的?;貧w模型的隨機(jī)誤差項(xiàng)中一般包括如下幾項(xiàng)內(nèi)容,(1)非重要解釋變量的省略(在需求的例子中,如消費(fèi)者收入、同類競爭產(chǎn)品的價(jià)格等因素),(2)人們的隨機(jī)行為,(3)數(shù)學(xué)模型形式欠妥,(4)歸并誤差(糧食的歸并)(5)測量誤差等(數(shù)據(jù)統(tǒng)計(jì))。所以為了把上述產(chǎn)生的誤差考慮在內(nèi),在計(jì)量經(jīng)濟(jì)模型中引進(jìn)了隨機(jī)變量ut,認(rèn)為它對假定存在于x和y之間的精確線性關(guān)系進(jìn)行擾動(dòng)?;貧w模型存在兩個(gè)特點(diǎn)。(1)建立在某些假定條件不變前提下抽象出來的回歸函數(shù)不能百分之百地再現(xiàn)所研究的經(jīng)濟(jì)過程。(2)也正是由于這些假定與抽象,才使我們能夠透過復(fù)雜的經(jīng)濟(jì)現(xiàn)象,深刻認(rèn)識到該經(jīng)濟(jì)過程的本質(zhì)。通常線性回歸函數(shù)E(yt)=0+1xt是觀察不到的,利用樣本得到的只是對E(yt)=0+1xt的估計(jì),即對0和1的估計(jì)。在對回歸函數(shù)進(jìn)行估計(jì)之前應(yīng)該對隨機(jī)誤差項(xiàng)ut做出如下假定。(1)ut是一個(gè)隨機(jī)變量,ut的取值服從概率分布。(2)E(ut)=0。該假定表明:平均地看,隨機(jī)擾動(dòng)項(xiàng)對yt沒有任何影響,也就是說,正值與負(fù)值相互抵消。(3)D(ut)=E[ut-E(ut)]2=E(ut)2=2。稱ui具有同方差性。該假定表示,每個(gè)y值以相同的方差分布在其均值周圍。這是由于x值是給定的或是非隨機(jī)的,因此,y中唯一變化的部分來自于u。因此,在給定x值的條件下,ut與yt同方差。(4)ut為正態(tài)分布(根據(jù)中心極限定理)。以上四個(gè)假定可作如下表達(dá)。utN(0,)。(5)Cov(ui,uj)=E[(ui-E(ui))(uj-E(uj))]=E(ui,uj)=0,(ij)。含義是不同觀測值所對應(yīng)的隨機(jī)項(xiàng)相互獨(dú)立。稱為ui的非自相關(guān)性。該假定表明ui是隨機(jī)的。(6)xi是非隨機(jī)的。(7)Cov(ui,xi)=E[(ui-E(ui))(xi-E(xi))]=E[ui(xi-E(xi)]=E[uixi-uiE(xi)]=E(uixi)=0.ui與xi相互獨(dú)立。否則,分不清是誰對yt的貢獻(xiàn)。(8)對于多元線性回歸模型,解釋變量之間不能完全相關(guān)或高度相關(guān)(非多重共線性)。在假定(1),(2)成立條件下有E(yt)=E(0+1xt+ut)=0+1xt。同學(xué)們或許會(huì)對這些假定感到迷惑,為什么需要這些假定?它們的現(xiàn)實(shí)意義如何呢?如果這些假定不為真,情況又會(huì)怎樣呢?如何知道某一回歸模型卻是滿足說有這些假定呢?2.最小二乘估計(jì)(OLS)對于所研究的經(jīng)濟(jì)問題,通常真實(shí)的回歸直線是觀測不到的。收集樣本的目的就是要對這條真實(shí)的回歸直線做出估計(jì)。怎樣估計(jì)這條直線呢?顯然綜合起來看,這條直線處于樣本數(shù)據(jù)的中心位置最合理。怎樣用數(shù)學(xué)語言描述“處于樣本數(shù)據(jù)的中心位置”?設(shè)估計(jì)的直線用=+xt表示。其中稱yt的擬合值(fittedvalue),和分別是0和1的估計(jì)量。觀測值到這條直線的縱向距離用表示,稱為殘差(residual),是ut的估計(jì)量。yt=+=+xt+稱為估計(jì)的模型。假定樣本容量為T。(1)用“殘差和最小”確定直線位置是一個(gè)途徑。但很快發(fā)現(xiàn)計(jì)算“殘差和”存在相互抵消的問題。(2)用“殘差絕對值和最小”確定直線位置也是一個(gè)途徑。但絕對值的計(jì)算比較麻煩。(3)最小二乘法的原則是以“殘差平方和最小”確定直線位置。用最小二乘法除了計(jì)算比較方便外,得到的估計(jì)量還具有優(yōu)良特性。(這種方法對異常值非常敏感)設(shè)殘差平方和用Q表示,Q===,則通過Q最小確定這條直線,即確定和的估計(jì)值。以和為變量,把Q看作是和的函數(shù),這是一個(gè)求極值的問題。求Q對和的偏導(dǎo)數(shù)并令其為零,得正規(guī)方程,=2(-1)=0(1)=2(-xt)=0(2)下面用代數(shù)和矩陣兩種形式推導(dǎo)計(jì)算結(jié)果。首先用代數(shù)形式推導(dǎo)。由(1)、(2)式得,=0(3)xt=0(4)(3)式兩側(cè)用T除,并整理得,=(5)把上式代入(4)式并整理,得,xt=0(6)=0(7)=(8)因?yàn)?0,=0,分別在(8)式的分子和分母上減和得,=(9)=(10)下面用矩陣形式推導(dǎo)首先正規(guī)方程為=2(-1)=0(1)=2(-xt)=0(2)T+()=+()====這種形式在單位根檢驗(yàn)的理論分析中非常有用。3.最小二乘估計(jì)量和的特性線性特性這里指和分別是yt的線性函數(shù)。===令kt=,代入上式得=ktyt可見是yt的線性函數(shù),是1的線性估計(jì)量。同理0也具有線性特性。無偏性:是指估計(jì)量的數(shù)學(xué)期望值等于總體回歸系數(shù)的真值。利用上式E()=E(ktyt)=E[kt(0+1xt+ut)]=E(0kt+1ktxt+ktut)=E[1kt(xt-)+ktut]=1+E(ktut)=1因?yàn)閗t===0;并且ktxt=xt同樣可以證得E()=0所以,和的分布中心是1和0,那么方差或者標(biāo)準(zhǔn)差是衡量和是否接近1和0的重要參數(shù)。方差或者標(biāo)準(zhǔn)差越小,估計(jì)量和就越可靠。(3)有效性0,1的OLS估計(jì)量的方差比其他估計(jì)量的方差小。證明不需要掌握。Gauss-Marcov定理:若ut滿足E(ut)=0,D(ut)=2,那么用OLS法得到的估計(jì)量就具有最佳線性無偏性。估計(jì)量稱最佳線性無偏估計(jì)量(TheBestLinearUnbiasedEstimator)。最佳線性無偏估計(jì)特性保證估計(jì)值最大限度的集中在真值周圍,估計(jì)值的置信區(qū)間最小。注意:分清4個(gè)式子的關(guān)系。(1)真實(shí)的統(tǒng)計(jì)模型,yt=0+1xt+ut(2)估計(jì)的統(tǒng)計(jì)模型,yt=+xt+(3)真實(shí)的回歸直線,E(yt)=0+1xt(4)估計(jì)的回歸直線,=+xt4.OLS回歸直線的性質(zhì)(1)殘差和等于零,=0由正規(guī)方程2(yt--xt)(-1)=0得(yt--xt)=(yt-)=()=0(2)估計(jì)的回歸直線=+xt過(,)點(diǎn)。正規(guī)方程(yt--xt)=0兩側(cè)同除樣本容量T,得=+。得證。(3)yt的擬合值的平均數(shù)等于其樣本觀測值的平均數(shù),=。==(+xt)=+=。得證。(4)Cov(,xt)=0只需證明(xt-)=xt-=xt=xt(--xt)=0。上式為正規(guī)方程之一。(5)Cov(,)=0只需證明(-)=-==(+xt)=+xt=05.的估計(jì)在參數(shù)估計(jì)量和的方差中均含有隨機(jī)變量u的方差u2。由于u是一個(gè)無法測量的量,因而也不可能計(jì)算出u的方差。定義=其中2表示待估參數(shù)的個(gè)數(shù)??梢宰C明E()=。是的無偏估計(jì)量。因?yàn)槭菤埐?,所以又稱作誤差均方??捎脕砜疾煊^測值對回歸直線的離散程度。和的估計(jì)的方差是()=S2()=,()=S2()=6.yt的分布和的分布了解估計(jì)量的抽樣分布,是為了判別這些估計(jì)量接近其總體真實(shí)值的程度如何。根據(jù)假定條件utN(0,),E(yt)=E(0+1xt+ut)=0+1xt+E(ut)=0+1xt。Var(yt)=Var(0+1xt+ut)=Var(0+1xt)+Var(ut)=yt是ut的線性函數(shù),所以ytN(0+1xt,)??梢宰C明E()=1,Var()=,E()=0,Var()=和是yt的線性函數(shù),所以N(1,),N(0,)7.?dāng)M合優(yōu)度的測量擬合優(yōu)度是指回歸直線對觀測值的擬合程度。顯然若觀測值離回歸直線近,則擬合程度好;反之則擬合程度差。圖2.3三種離差示意圖可以證明(yt-)2=(-)2+(yt-)2=(-)2+()2。SST(總離差平方和)=SSR(回歸平方和)+SSE(殘差平方和)證明(yt-)2=[(yt-)+(-)]2=(yt-)2+(-)2+2(yt-)(-)其中(yt-)(-)=(yt-)(xt-)=(yt-)xt-(yt-)=xt=0度量擬合優(yōu)度的統(tǒng)計(jì)量是可決系數(shù)(也稱作決定系數(shù)或者判定系數(shù))。R2==(回歸平方和)/(總離差平方和)=SSR/SST所以R2的取值范圍是[0,1]。對于一組數(shù)據(jù),SST是不變的,所以SSR↑(↓),SSE↓(↑)。SSR:舊指回歸平方和(regressionsumofsquares),現(xiàn)指殘差平方和(sumofsquaredresiduals)SSE:舊指殘差平方和(errorsumofsquares(sumofsquarederrors)),現(xiàn)指回歸平方和(explainedsumofsquares)8.回歸參數(shù)的顯著性檢驗(yàn)及其置信區(qū)間最小二乘估計(jì)值和是由x和y的樣本觀測值求出的,為了確定它們的可靠程度,有必要進(jìn)行顯著性檢驗(yàn)。這種檢驗(yàn)是確定和是否顯著的不等于零,亦即檢驗(yàn)樣本是否取自其真實(shí)參數(shù)為零的總體。主要是檢驗(yàn)1是否為零。通常用樣本計(jì)算的不等于零,但應(yīng)檢驗(yàn)這是否有統(tǒng)計(jì)顯著性。原假設(shè)H0:1=0;備擇假設(shè)H1:10在H0成立條件下,t===-t(T-2)0t(T-2)若t>t(T-2),則接受備擇假設(shè)H1:10,表明x對y有顯著影響;若t<t(T-2),則接受原假設(shè)H0:1=0,表明x對y沒有顯著影響,一元線性回歸模型無意義。對0是否為零的檢驗(yàn)。原假設(shè)H0:0=0;備擇假設(shè)H1:00在H0成立條件下,t===若t>t/2(T-2),則接受備擇假設(shè)H1:00,表明模型中應(yīng)該保留截距項(xiàng);若t<t/2(T-2),則接受原假設(shè)H0:0=0,表明一元線性回歸模型中不應(yīng)該包括截距項(xiàng)。上面的顯著性檢驗(yàn)如果得出拒絕j=0(j=0,1)的原假設(shè),只能說明估計(jì)值是由取自參數(shù)j不為零的總體中的一組樣本觀測值所確定的。為了確定接近總體j的程度,我們需要構(gòu)造一個(gè)以為中心的區(qū)間,總體參數(shù)j在一定的置信度下落在這個(gè)區(qū)間之內(nèi)。計(jì)量經(jīng)濟(jì)學(xué)中選擇的置信度(置信水平)一般為95%,說明總體參數(shù)j以95%的概率落在的置信區(qū)間內(nèi),當(dāng)然還有5%的可能落在置信區(qū)間外。置信區(qū)間越小,說明估計(jì)值越接近總體參數(shù)j??蛇x擇的置信度還有90%和99%。根據(jù)t分布來構(gòu)造置信區(qū)間。在原假設(shè)H0:1=0成立條件下,t=(具有T-2個(gè)自由度)那么我們根據(jù)置信度1-,查自由度為f=T-2的t分布表,得臨界值t,,t值落在(-t,t)的概率是1-,即P{t/2,(T-2)}=1-由大括號內(nèi)不等式得1的置信區(qū)間-t/2,(T-2)1+t/2,(T-2)可記作其中是=的算術(shù)根,而其中的是的算術(shù)根。0的置信區(qū)間同理可得。由此可以看出,置信區(qū)間的大小取決于回歸系數(shù)估計(jì)值的標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)差越小,置信區(qū)間越小,越接近j,估計(jì)結(jié)果就越可靠。9.yF的點(diǎn)預(yù)測及其區(qū)間預(yù)測下面以時(shí)間序列數(shù)據(jù)為例介紹預(yù)測問題。預(yù)測可分為事前預(yù)測和事后預(yù)測。兩種預(yù)測都是在樣本區(qū)間之外進(jìn)行,如圖所示。對于事后預(yù)測,被解釋變量和解釋變量的值在預(yù)測區(qū)間都是已知的??梢灾苯佑脤?shí)際發(fā)生值評價(jià)模型的預(yù)測能力。對于事前預(yù)測,解釋變量是未發(fā)生的。當(dāng)預(yù)測被解釋變量時(shí),則首先應(yīng)該預(yù)測解釋變量的值。對于解釋變量的預(yù)測,通常采用時(shí)間序列模型。預(yù)測式中所有解釋變量的值都是已知的稱為事后預(yù)測。T1T2T3(目前)樣本區(qū)間(1980-2005)事后預(yù)測事前預(yù)測(2007)對于模型yt=0+1xt+ut如果給定樣本以外的解釋變量的觀測值xF,有:yF=0+1xF+uF因?yàn)閤F不是原來回歸方程中的樣本,所以uF和原模型中的{ut}不相關(guān)。如何求出yF的合理的值或范圍,就是回歸分析中預(yù)測的內(nèi)容。具體分為點(diǎn)預(yù)測和區(qū)間預(yù)測二類。yF的點(diǎn)預(yù)測。假定已知解釋變量x的一個(gè)特定值xF,代入樣本回歸方程:=+xt,可得=+xF則是yF的預(yù)測值,由于求出的是單個(gè)預(yù)測值,故稱為“點(diǎn)預(yù)測”。特定值xF是可以任意給定的。如果xF在樣本區(qū)間內(nèi),則點(diǎn)預(yù)測過程稱為內(nèi)插預(yù)測,人們常常用內(nèi)插預(yù)測檢驗(yàn)樣本回歸方程的預(yù)測能力。如果在樣本區(qū)間之內(nèi)預(yù)測值接近樣本值yF,則說明在樣本區(qū)間內(nèi)的預(yù)測功效是好的。如果xF是樣本區(qū)間之外的點(diǎn),則點(diǎn)預(yù)測過程稱為外推預(yù)測。實(shí)際預(yù)測時(shí),常常做的是外推預(yù)測。單個(gè)yF的區(qū)間預(yù)測一個(gè)好的預(yù)測結(jié)果,一是無偏,二是預(yù)測的方差要小。我們可以證明點(diǎn)估計(jì)值有以下兩種不同的概念:①是總體真值yF的無偏估計(jì)值;②是總體回歸直線E(yF)的無偏估計(jì)值。的分布是N(0+1xF,(1++))所以,在置信度1-下,yF的區(qū)間預(yù)測是[t/2(T-2)]可知,當(dāng)置信水平1-給定之后,yF的預(yù)測區(qū)間的大小實(shí)際由絕對值的大小決定。xF越接近樣本區(qū)間內(nèi)解釋變量x的平均值,yF的置信區(qū)間就越小,預(yù)測結(jié)果就越可靠。E(yF)的區(qū)間預(yù)測E()的分布是E()N(0+1xF,(+))則E(yF)在置信度1-下的區(qū)間預(yù)測是[t/2(T-2)]yF和E(yF)的置信區(qū)間(置信帶或置信域)圖示如下:(1)樣本容量T越大,預(yù)測精度越高,反之預(yù)測精度越低;(2)樣本容量一定時(shí),置信帶的寬度當(dāng)在x均值處最小,其附近進(jìn)行預(yù)測(插值預(yù)測)精度越大;x越遠(yuǎn)離其均值,置信帶越寬,預(yù)測可信度下降。10.案例:用回歸模型預(yù)測木材剩余物(file:b1c3)伊春林區(qū)位于黑龍江省東北部。全區(qū)有森林面積218.9732萬公頃,木材蓄積量為2.324602億m3。森林覆蓋率為62.5%,是我國主要的木材工業(yè)基地之一。1999年伊春林區(qū)木材采伐量為532萬m3。按此速度44年之后,1999年的蓄積量將被采伐一空。所以目前亟待調(diào)整木材采伐規(guī)劃與方式,保護(hù)森林生態(tài)環(huán)境。為緩解森林資源危機(jī),并解決部分職工就業(yè)問題,除了做好木材的深加工外,還要充分利用木材剩余物生產(chǎn)林業(yè)產(chǎn)品,如紙漿、紙袋、紙板等。因此預(yù)測林區(qū)的年木材剩余物是安排木材剩余物加工生產(chǎn)的一個(gè)關(guān)鍵環(huán)節(jié)。下面,利用一元線性回歸模型預(yù)測林區(qū)每年的木材剩余物。顯然引起木材剩余物變化的關(guān)鍵因素是年木材采伐量。給出伊春林區(qū)16個(gè)林業(yè)局1999年木材剩余物和年木材采伐量數(shù)據(jù)如表2.1。散點(diǎn)圖見圖2.14。觀測點(diǎn)近似服從線性關(guān)系。建立一元線性回歸模型如下:yt=0+1xt+ut表2.1年剩余物yt和年木材采伐量xt數(shù)據(jù)林業(yè)局名年木材剩余物yt(萬m3)年木材采伐量xt(萬m3)烏伊嶺26.1361.4東風(fēng)23.4948.3新青21.9751.8紅星11.5335.9五營7.1817.8上甘嶺6.8017.0友好18.4355.0翠巒11.6932.7烏馬河6.8017.0美溪9.6927.3大豐7.9921.5南岔12.1535.5帶嶺6.8017.0朗鄉(xiāng)17.2050.0桃山9.5030.0雙豐5.5213.8合計(jì)202.87532.00圖2.14年剩余物yt和年木材采伐量xt散點(diǎn)圖圖2.15EViews輸出結(jié)果EViews估計(jì)結(jié)果見圖2.15。建立EViews數(shù)據(jù)文件的方法見附錄1。在已建立Eviews數(shù)據(jù)文件的基礎(chǔ)上,進(jìn)行OLS估計(jì)的操作步驟如下:打開工作文件,從主菜單上點(diǎn)擊Quick鍵,選EstimateEquation功能。在出現(xiàn)的對話框中輸入ycx。點(diǎn)擊Ok鍵。立即會(huì)得到如圖2.15所示的結(jié)果。下面分析EViews輸出結(jié)果。先看圖2.15的最上部分。被解釋變量是yt。估計(jì)方法是最小二乘法。本次估計(jì)用了16對樣本觀測值。輸出格式的中間部分給出5列。第1列給出截距項(xiàng)(C)和解釋變量xt。第2列給出第1列相應(yīng)項(xiàng)的回歸參數(shù)估計(jì)值(和)。第3列給出相應(yīng)回歸參數(shù)估計(jì)值的樣本標(biāo)準(zhǔn)差(s(),s())。第4列給出相應(yīng)t值。第5列給出t統(tǒng)計(jì)量取值大于用樣本計(jì)算的t值(絕對值)的概率值。以t=12.11266為例,相應(yīng)概率0.0000表示統(tǒng)計(jì)量t取值(絕對值)大于12.1的概率是一個(gè)比萬分之一還小的數(shù)。換句話說,若給定檢驗(yàn)水平為0.05,則臨界值為t0.05/2(14)=2.15。t=12.1>2.15落在了H0的拒絕域,所以結(jié)論是1不為零。輸出格式的最下部分給出了評價(jià)估計(jì)的回歸函數(shù)的若干個(gè)統(tǒng)計(jì)量的值。依縱向順序,這些統(tǒng)計(jì)量依次是可決系數(shù)R2、調(diào)整的可決系數(shù)(第3章介紹)、回歸函數(shù)的標(biāo)準(zhǔn)差(s.e.,即均方誤差的算術(shù)根)、殘差平方和、對數(shù)極大似然函數(shù)值(第2章介紹)、DW統(tǒng)計(jì)量的值、被解釋變量的平均數(shù)()、被解釋變量的標(biāo)準(zhǔn)差()、赤池(Akaike)信息準(zhǔn)則(是一個(gè)選擇變量最優(yōu)滯后期的統(tǒng)計(jì)量)、施瓦茨(Schwatz)準(zhǔn)則(是一個(gè)選擇變量最優(yōu)滯后期的統(tǒng)計(jì)量)、F統(tǒng)計(jì)量(第3章介紹)的值以及F統(tǒng)計(jì)量取值大于該值的概率。注意:S.D.(被解釋變量的標(biāo)準(zhǔn)差)和s.e.(均方誤差的算術(shù)根)的區(qū)別。s.e.和SSE的關(guān)系。因?yàn)?,而(2)就是SSE(殘差平方和),所以已知其中的一個(gè)就可以推算出另外一個(gè)。根據(jù)EViews輸出結(jié)果(圖2.15),寫出OLS估計(jì)式如下:=-0.7629+0.4043xt(2.64)(-0.6)(12.1)R2=0.91,s.e.=2.04其中括號內(nèi)數(shù)字是相應(yīng)t統(tǒng)計(jì)量的值。s.e.是回歸函數(shù)的標(biāo)準(zhǔn)誤差,即=。R2是可決系數(shù)。R2=0.91說明上式的擬合情況較好。yt變差的91%由變量xt解釋。檢驗(yàn)回歸系數(shù)顯著性的原假設(shè)和備擇假設(shè)是(給定=0.05)H0:1=0;H1:10因?yàn)閠=12.1>t0.05(14)=2.15,所以檢驗(yàn)結(jié)果是拒絕1=0,即認(rèn)為年木材剩余物和年木材采伐量之間存在回歸關(guān)系。上述模型的經(jīng)濟(jì)解釋是,對于伊春林區(qū)每采伐1m3木材,將平均產(chǎn)生0.4m3的剩余物。圖2.16給出相應(yīng)的殘差圖。Actual表示yt的實(shí)際觀測值,F(xiàn)itted表示yt的擬合值,Residual表示殘差。殘差圖中的兩條虛線與中心線的距離表示殘差的一個(gè)標(biāo)準(zhǔn)差,即s.e.。通過殘差圖可以看到,大部分殘差值都落在了正、負(fù)一個(gè)標(biāo)準(zhǔn)差(s.e.=2.04)之內(nèi)。圖2.16殘差圖估計(jì)1的置信區(qū)間。由t=P{t0.05/2(14)}=0.95得t0.05/2(14)1的置信區(qū)間是[-t0.05/2(14),+t0.05/2(14)][0.4043-2.150.0334,0.4043+2.150.0334][0.3325,0.4761](2.65)以95%的置信度認(rèn)為,1的真值范圍應(yīng)在[0.3325,0.4761]范圍中。下面求yt的點(diǎn)預(yù)測和平均木材剩余物產(chǎn)出量E(yt)的置信區(qū)間預(yù)測。假設(shè)烏伊嶺林業(yè)局2000年計(jì)劃采伐木材20萬m3,求木材剩余物的點(diǎn)預(yù)測值。2000=-0.7629+0.4043x2000=-0.7629+0.404320=7.3231萬m3(2.66)s2(E(2000))=(+)=4.1453(+)=0.4546 s(E(2000))==0.6742因?yàn)镋(2000)=E(+x2000)=0+1x2000=E(y2000)t=t(T-2)則置信度為0.95的2000年平均木材剩余物E(y2000)的置信區(qū)間是2000t0.05/2(14)s(E(2000))=7.32312.150.6742=[5.8736,8.7726](2.67)從而得出預(yù)測結(jié)果,2000年若采伐木材20萬m3,產(chǎn)生木材剩余物的點(diǎn)估計(jì)值是7.3231萬m3。平均木材剩余物產(chǎn)出量的置信區(qū)間估計(jì)是在[5.8736,8.7726]萬m3之間。從而為恰當(dāng)安排2000年木材剩余物的加工生產(chǎn)提供依據(jù)。木材剩余物產(chǎn)出量單點(diǎn)的置信區(qū)間的計(jì)算。s2(2000)=(1++)=4.1453(1++)=4.5999 s(2000)==2.1447EViews通過預(yù)測程序計(jì)算的結(jié)果是,木材剩余物產(chǎn)出量單點(diǎn)的置信區(qū)間的估計(jì)結(jié)果是2000t0.05/2(14)s(2000)=7.32312.152.145=[2.71,11.93]問題:估計(jì)結(jié)果中沒有顯著性,去掉截距項(xiàng)0可以嗎?答:依據(jù)實(shí)際意義可知,沒有木材采伐量就沒有木材剩余物,所以理論上0是可以取零的。而有些問題就不可以。例如家庭消費(fèi)和收入的關(guān)系。即使家庭收入為零,消費(fèi)仍然非零。一般來說,截距項(xiàng)的估計(jì)量沒有顯著性時(shí),也不做剔出處理。本案例剔出截距項(xiàng)后的估計(jì)結(jié)果是=0.3853xt(28.3)R2=0.91,s.e.=2.0點(diǎn)預(yù)測值是2000=0.3853x2000=0.385320=7.7060萬m3附錄1:怎樣用EViews通過鍵盤輸入數(shù)據(jù)建立新工作文件的方法是從EViews主菜單中單擊File鍵,選擇New,Workfile。則打開一個(gè)數(shù)據(jù)范圍選擇框(WorkfileRange)。需要做出3項(xiàng)選擇。①選擇數(shù)據(jù)性質(zhì)。②啟始期(Startdate)。③終止期(Enddate)。3項(xiàng)選擇完畢后,點(diǎn)擊“OK”鍵。這時(shí),會(huì)建立起一個(gè)尚未命名的工作文件(Workfile),且處于打開狀態(tài)。當(dāng)打開新工作文件或現(xiàn)有工作文件后,可以通過鍵盤輸入數(shù)據(jù)和追加數(shù)據(jù)。具體操作如下:從EViews主菜單中點(diǎn)擊Quick鍵,選擇EmptyGroup功能。這時(shí)會(huì)打開一個(gè)空白表格數(shù)據(jù)窗口(Group)如圖3所示。每一個(gè)空格代表一個(gè)觀測值位置。按列依次輸入每一個(gè)變量(或序列)的觀測值。鍵入每一個(gè)觀測值后,可通過按回車鍵(Enter鍵)或方向指示鍵()進(jìn)行確認(rèn)。按方向指示鍵()的好處是在確認(rèn)了當(dāng)前輸入的觀測值的同時(shí),還把光標(biāo)移到了下一個(gè)待輸入位置。每一列數(shù)據(jù)上方的灰色空格是用于輸入變量名的。給變量命名時(shí),字符不得超過16個(gè)。注意:下列名字具有特殊意義,給變量命名時(shí),應(yīng)避免使用。它們是:ABS,ACOS,AR,ASIN,C,CON,CNORM,COEF,COS,D,DLOG,DNORM,ELSE,ENDIF,EXP,LOG,LOGIT,LPT1,LPT2,MA,NA,NRND,PDL,RESID,RND,SAR,SIN,SMA,SQR,THEN。附錄2:怎樣用EViews預(yù)測。以案例1為例,給定xt=20,求=?EViews預(yù)測步驟如下。(1)點(diǎn)擊Procs鍵選Changeworkfilerange功能。在彈出的對話框的Enddata選擇框處改為17。點(diǎn)擊OK鍵。(2)雙擊工作文件的Sample:117區(qū)域,在彈出的對話框的Samplerangepairs選擇框處把16改為117。(3)雙擊工作文件窗口中的x序列,打開x數(shù)據(jù)窗口。點(diǎn)擊Edit+/-鍵,使x數(shù)據(jù)窗口處于可編輯狀態(tài)。在t=17的x的觀測值位置輸入20。相當(dāng)于給定x=20。(4)打開估計(jì)式eq01窗口,點(diǎn)擊Forecast鍵。在S.E.選擇框處填入yfse,表示要yt的預(yù)測值(用YF表示)也要yt的預(yù)測標(biāo)準(zhǔn)差(用yfse表示)。點(diǎn)擊OK鍵,工作文件窗口中已經(jīng)出現(xiàn)一個(gè)yf序列。雙擊yf序列,可以看到。y17=7.322668。1.相關(guān)理論相關(guān)分析是研究變量間相互關(guān)系的最基本方法。從相關(guān)分析中引出的相關(guān)系數(shù)是回歸分析的一個(gè)基本統(tǒng)計(jì)量。掌握它有助于對經(jīng)濟(jì)問題和經(jīng)濟(jì)計(jì)量模型的分析與理解。1.1相關(guān)的定義與分類定義:相關(guān)(correlation)指兩個(gè)或兩個(gè)以上變量間相互關(guān)系的程度或強(qiáng)度。分類:①按強(qiáng)度分完全相關(guān):變量間存在函數(shù)關(guān)系。例,圓的周長,L=2πr。高度相關(guān)(強(qiáng)相關(guān)):變量間近似存在函數(shù)關(guān)系。例,我國家庭收入與支出的關(guān)系。弱相關(guān):變量間有關(guān)系但不明顯。例,近年來我國耕種面積與產(chǎn)量。零相關(guān):變量間不存在任何關(guān)系。例,某班學(xué)生的學(xué)習(xí)成績與年齡。完全相關(guān)高度相關(guān)、線性相關(guān)、正相關(guān)弱相關(guān)②按變量個(gè)數(shù)分按形式分:線性相關(guān),非線性相關(guān)簡單相關(guān):指兩個(gè)變量間相關(guān)按符號分:正相關(guān),負(fù)相關(guān),零相關(guān)復(fù)相關(guān)(多重相關(guān)和偏相關(guān)):指三個(gè)或三個(gè)以上變量間的相關(guān)。非線性相關(guān)負(fù)相關(guān)零相關(guān)因非線性相關(guān)可以轉(zhuǎn)化為線性相關(guān)處理,而復(fù)相關(guān)又可看作是簡單相關(guān)基礎(chǔ)上的拓展,所以后面重點(diǎn)介紹簡單線性相關(guān)。1.2簡單線性相關(guān)的度量用簡單線性相關(guān)系數(shù),簡稱相關(guān)系數(shù)(correlationcoefficient)度量兩個(gè)變量間的線性相關(guān)強(qiáng)度,用表示。的隨機(jī)變量表達(dá)式是=。的統(tǒng)計(jì)表達(dá)式是==其中T,總體容量;xt,yt,變量的觀測值;x,y,變量觀測值的均值。下面解釋為什么能對變量間的線性相關(guān)強(qiáng)度進(jìn)行定量度量。因?yàn)楸磉_(dá)式的分子是協(xié)方差,Cov(xt,yt);分母是xi和yt的標(biāo)準(zhǔn)差之積。而xt和yt的標(biāo)準(zhǔn)差不會(huì)為零,所以Cov(xt,yt)是否為零,就決定了是否為零,即標(biāo)志著變量xt,yt間是否存在線性相關(guān)關(guān)系。但Cov(xt,yt)有兩個(gè)缺點(diǎn):①它是一個(gè)有量綱的量,取值容易受測量單位的影響;②取值范圍寬,相關(guān)性越強(qiáng),Cov(xt,yt)取值越大。為克服上述缺點(diǎn),用xt,yt的標(biāo)準(zhǔn)差除Cov(xt,yt),于是就得到相關(guān)系數(shù)的統(tǒng)計(jì)表達(dá)式。它是一個(gè)無量綱量。相關(guān)系數(shù)是對總體而言。當(dāng)研究某個(gè)問題時(shí),所得數(shù)據(jù)常是一個(gè)樣本。對樣本來說,相關(guān)系數(shù)常用r表示,即r是總體相關(guān)系數(shù)的估計(jì)值。r===其中T,樣本容量;xt,yt,變量的觀測值;,,變量觀測值的均值。1.3相關(guān)系數(shù)的取值范圍當(dāng)兩個(gè)變量嚴(yán)格服從線性關(guān)系時(shí),∣∣=1。證:設(shè)直線斜率為k,即y=a+kx。則有===1當(dāng)兩個(gè)變量不存在線性關(guān)系時(shí),=0。(3)上述是兩種極端情形,所以相關(guān)系數(shù)的取值范圍是[-1,1]。當(dāng)Cov(xt,yt)>0時(shí),則>0(正相關(guān));當(dāng)Cov(xt,yt)<0時(shí),則<0(負(fù)相關(guān));若Cov(xt,yt)=0,則=0(零相關(guān))。為什么圖1為正相關(guān)?為什么圖2為負(fù)相關(guān)?用(xt–)(yt–)解釋。圖1正相關(guān)圖2負(fù)相關(guān)例1:考察1986年中國29個(gè)省市自治區(qū)農(nóng)作物種植業(yè)產(chǎn)值yt(億元)和農(nóng)作物播種面積xt(萬畝)的相關(guān)性(見圖1.9)。例2:考察1978~2000年天津市城鎮(zhèn)居民人均消費(fèi)與人均可支配收入的相關(guān)性性(見圖1.10)。圖1.9r=0.92圖1.10r=0.991.4線性相關(guān)系數(shù)的局限性(1)只適用于考察變量間的線性相關(guān)關(guān)系。也就是說當(dāng)=0時(shí),只說明二變量間不存在線性相關(guān)關(guān)系,但不能保證不存在其它非線性相關(guān)關(guān)系。所以變量不相關(guān)與變量相互獨(dú)立在概念上是不同的。(2)相關(guān)系數(shù)的計(jì)算是一個(gè)數(shù)學(xué)過程。它只說明二變量間的相關(guān)強(qiáng)度,但不能揭示這種相關(guān)性的原因,不能揭示變量間關(guān)系的實(shí)質(zhì),即變量間是否真正存在內(nèi)在聯(lián)系,因果關(guān)系。所以在計(jì)算r的同時(shí),還要強(qiáng)調(diào)對實(shí)際問題的分析與理解。(3)一般說二變量相關(guān)時(shí),可能屬于如下一種關(guān)系。單向因果關(guān)系。如施肥量與農(nóng)作物產(chǎn)量;對金屬的加熱時(shí)間與溫度值。雙向因果關(guān)系。如工業(yè)生產(chǎn)與農(nóng)業(yè)生產(chǎn);商品供給量與商品價(jià)格。③另有隱含因素影響二變量變化。如市場上計(jì)算機(jī)銷量與電視機(jī)銷量呈正相關(guān)。顯然人均收入的增加是一個(gè)隱含因素。④虛假相關(guān)。如年國民生產(chǎn)總值與刑事案件數(shù)呈正相關(guān)。顯然二變量間不存在因果關(guān)系。應(yīng)屬虛假相關(guān)。中國和美國某個(gè)經(jīng)濟(jì)指標(biāo)高度相關(guān),顯然這沒有可比性,毫無意義。(1997-2001,file:5correlation1)1.5簡單相關(guān)系數(shù)的檢驗(yàn)(1)直接檢驗(yàn)(查相關(guān)系數(shù)臨界值表)H0:=0;H1:0用xt和yt的樣本計(jì)算相關(guān)系數(shù)r,以自由度f=T-2查臨界值表。檢驗(yàn)規(guī)則是,若r>r(T-2)(臨界值),則xt和yt相關(guān);若r<r(T-2)(臨界值),則xt和yt不相關(guān)。(2)t檢驗(yàn)H0:=0;H1:0t==t(T-2)其中2表示涉及兩個(gè)變量。若t>t(T-2),則xt和yt相關(guān);若t<t(T-2),則xt和yt不相關(guān)。附錄:相關(guān)系數(shù)臨界值表f0.100.050.020.010.00110.987690.996920.9995070.9998770.999998820.900000.950000.980000.990000.9990030.80540.87830.934330.958730.9911640.72930.81140.88220.917200.9740650.66940.75450.83290.87450.9507460.62150.70670.78870.83430.9249370.58220.66640.74980.79770.898280.54940.63190.71550.76460.872190.52140.60210.68510.73480.8471100.49330.57600.65810.70790.8233110.47620.55290.63390.68350.8010120.45750.53240.61200.66140.7800130.44090.51390.59230.64110.7603140.42590.49730.57420.62260.7420150.41240.48210.55770.60550.7246160.40000.46830.54250.58970.7084170

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論