第三章多元線性回歸模型_第1頁
第三章多元線性回歸模型_第2頁
第三章多元線性回歸模型_第3頁
第三章多元線性回歸模型_第4頁
第三章多元線性回歸模型_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第三章多元線性回歸模型2第一節(jié)多元回歸模型及基本假定

現(xiàn)實中引起被解釋變量變化的因素可能有很多個。

多元總體線性回歸模型的形式為

Yi=b1+

b2X2i+

b3X3i

+…

+bkXki

+ui一、多元線性回歸模型的形式3Yi=β1

+β2

X2i+β3

X3i+ui如二元線性回歸模型:被解釋變量截距項解釋變量隨機誤差項偏回歸系數(shù)(partialregressioncoefficients)4偏回歸系數(shù)的含義Yi=β1

+β2

X2i+β3

X3i+ui度量X3i保持不變的情況下,E(Y

|X2i,X3i)的變化,即β2度量X2i

的單位變化對Y均值的“直接”或“凈”影響。β3的含義呢?5若總體個數(shù)為n,則寫成矩陣形式:6即X稱為數(shù)據(jù)矩陣或設(shè)計矩陣。7二、古典假定假定1:零均值假定矩陣形式:8假定2:同方差假定假定3:無自相關(guān)假定統(tǒng)一成矩陣形式:9假定4:隨機擾動項與解釋變量不相關(guān)假定5:正態(tài)性假定,即假定6:解釋變量之間無多重共線性即各解釋變量的樣本觀測值之間線性無關(guān),解釋變量的樣本觀測值矩陣的秩為參數(shù)個數(shù),從而保證參數(shù)的估計值唯一。10

當(dāng)總體觀測值難于得到時,回歸系數(shù)向量b是未知的,這時可以由樣本觀測值進行估計,可表示為但實際觀測值與計算值有偏差,記為:稱為多元樣本回歸函數(shù)。于是11分別稱為回歸系數(shù)估計值向量、剩余項或殘差向量、

Y的樣本估計值向量。12第二節(jié)多元回歸模型的估計設(shè)(Yi,X2i,X3i,…

,Xki)為第i個觀測樣本(i=1,2,…,n),一、參數(shù)的最小二乘估計要使殘差平方和其必要條件是于是13即或14將兩邊同時左乘得由無多重共線性假定,即可得參數(shù)向量b的最小二乘估計式的矩陣表達式對于只有兩個解釋變量的線性回歸模型的參數(shù)的最小二乘估計,書上給出了具體的代數(shù)表達式(P80)15回歸殘差為:設(shè)殘差平方和為Q

:令1617正規(guī)方程組(NormalEquation)18下面推導(dǎo)參數(shù)估計式公式:

即1920類似地于是21同理22(1)無偏性二、OLS估計式的統(tǒng)計性質(zhì)23(3)最小方差性參數(shù)最小二乘估計是所有線性無偏估計量中方差最小的估計量。(2)線性性每個參數(shù)估計量是Yi

(i=1,2,…,n)的線性組合。

即在古典假定條件下,多元線性回歸模型的最小二乘估計是最佳線性無偏估計式。(BestLinearUnbiasedEstimator,BLUE)24

在古典假定條件下,三、OLS估計的分布性質(zhì)而是Yi的線性函數(shù),故它們也服從正態(tài)分布。

為了進行區(qū)間估計和假設(shè)檢驗,需要弄清參數(shù)估計量的分布。從而由無偏性25所以是矩陣中第j行第j列上的元素26四、隨機擾動項方差的估計

通常s2是未知的,參數(shù)估計量的無法計算,可以證明:是s2的無偏估計量。27五、參數(shù)的區(qū)間估計

當(dāng)用代替s2時,給定顯著性水平a,查t分布自由度為n-k的臨界值t0,則回歸系數(shù)bj的置信度為1-

a的置信區(qū)間為:28例1

已知線性回歸模型

n=5,并且根據(jù)各個變量的數(shù)據(jù)計算出:

(1)求模型中三個參數(shù)的最小二乘估計;(保留二位小數(shù))

(2)求估計參數(shù)的標準差的估計量。29解:(1)于是又30解:(2)又于是31第三節(jié)多元回歸模型的檢驗

為了從估計出的模型出發(fā)(即SRF),檢驗SRF對樣本觀測值的擬合程度。與簡單線性回歸一樣,考察在Y的總變差中由多個解釋變量作出了解釋的那部分比重。一、擬合優(yōu)度檢驗32在中,TSS=RSS+ESS自由度:

n-1=(k-1)+(n-k)由于RankX=k,所以在中獨立的變量只有k個,又已知,故的自由度為k-1.33我們用回歸平方和(RSS)與總離差平方和(TSS)的比值表示二元回歸方程的擬合優(yōu)度,稱為多重可決系數(shù)或多重判定系數(shù)即:=RSS+ESS34可用矩陣表示:P79(3.25)式:35由知當(dāng)R2=1時,從而ei=0,這時,被解釋變量的總變差完全由解釋變量解釋。此時,從取得樣本看,樣本觀測值完全落在樣本回歸線上;當(dāng)R2=0時,總變差完全不能由解釋變量解釋。R2越接近于1,擬合狀態(tài)越好。36所以可決系數(shù)也可表示為:37問題:

在多元線性回歸模型中增加一個解釋變量,殘差平方和一般會減小,從而可決系數(shù)會相應(yīng)增大,那是不是解釋變量越多越好呢?事實上不是這樣,實際情況中,經(jīng)濟現(xiàn)象是錯綜復(fù)雜的,一個模型不可能把它的所有影響因素都考慮進去,有時越追求全面,喪失的是越不準確,另外,解釋變量越多,損失的自由度越多。38

為了消除因解釋變量個數(shù)不同對可決系數(shù)的影響,提出了修正的可決系數(shù)(Adjustedcoefficientofdetermination)注意上式右邊可能為負值,這是規(guī)定:39

可決系數(shù)只是對模型擬合優(yōu)度的度量,可決系數(shù)或修正的可決系數(shù)越大,表明列入模型中的解釋變量對被解釋變量的聯(lián)合影響程度越大,并非各個解釋變量對被解釋變量的影響都很大。在回歸分析中,不僅模型的擬合程度要高,而且要求各個解釋變量對被解釋變量的影響都是顯著的,即對總體回歸參數(shù)的估計值要可靠。因此,在建立模型時,不能單憑可決系數(shù)的高低斷定模型的優(yōu)劣,在通盤考慮時,可以適當(dāng)降低對可決系數(shù)的要求。40

被解釋變量與多個解釋變量之間是否存在顯著的線性關(guān)系呢?需在總體上是否顯著作出推斷。二、回歸方程的顯著性檢驗(F檢驗)假設(shè)的形式為原假設(shè)H0:b2=b3=…=bk=0備擇假設(shè)H1:bj(j=2,3,…,k)不全為0統(tǒng)計量41(3)給定顯著性水平a,在F分布表查自由度為k-1和n-k的臨界值Fa

。(1)提出檢驗假設(shè)(4)比較F值與臨界值Fa的大小,檢驗步驟:(2)用樣本觀測值計算統(tǒng)計量F的值若F>Fa,則拒絕原假設(shè),表明回歸方程顯著;若F<Fa,則接受原假設(shè),表明回歸方程不顯著,即列入模型的各個解釋變量聯(lián)合起來對被解釋變量的影響不顯著。42需要指出的是:在一元線性回歸中,由于解釋變量只有一個,不存在解釋變量聯(lián)合影響的整體檢驗問題,也就用不著進行F檢驗。事實上,對一元回歸模型的t檢驗與F檢驗是一致的。事實上P39(2.43)P48(2.67)而臨界值與也存在平方關(guān)系。43F與R2的關(guān)系F與R2成正比,R2越大,F

值也越大。所以可以把F檢驗看成是對擬合優(yōu)度的檢驗。但擬合優(yōu)度的檢驗不能取代F檢驗。因為可決系數(shù)或修正可決系數(shù)只能提供擬合優(yōu)度的度量,但它沒有回答它的值究竟要達到多大才算模型通過了檢驗。44

因為方程的整體線性關(guān)系顯著,并不表示每個解釋變量對被解釋變量的影響都是顯著的,因此,還必須分別對每個解釋變量進行顯著性進行檢驗。三、回歸參數(shù)的顯著性檢驗(t檢驗)我們知道標準化后這里Cjj是第j行第j列元素45而總體方差s2未知,當(dāng)用代替s2時,此時構(gòu)造的t

統(tǒng)計量對回歸參數(shù)的顯著性檢驗分兩種情況:1)檢驗估計的參數(shù)的顯著性:2)檢驗解釋變量對被解釋變量影響的顯著性:46(3)給定顯著性水平a,在

t分布表查自由度為n-k的臨界值ta/2

;(1)提出檢驗假設(shè)(4)比較

t值與臨界值ta/2的大小,對各個回歸參數(shù)顯著性檢驗的步驟:(2)用樣本觀測值計算統(tǒng)計量

的值;若|t|>ta/2,則拒絕原假設(shè),表明在其他解釋變量不變的情況下,Xj對Y的影響顯著;反之,若|t|<ta/2

,則接受原假設(shè),不顯著。H0:bj=bj*(j=1,2,…,k)H1:bj≠bj*(j=1,2,…,k)47(3)給定顯著性水平a,在

t分布表查自由度為n-k的臨界值ta/2

;(1)提出檢驗假設(shè)(4)比較

t值與臨界值ta/2的大小,對各個解釋變量的顯著性檢驗的步驟:(2)用樣本觀測值計算統(tǒng)計量

的值;若|t|>ta/2,則拒絕原假設(shè),表明在其他解釋變量不變的情況下,Xj對Y的影響顯著;反之,若|t|<ta/2

,則接受原假設(shè),不顯著。H0:bj=0(j=2,…,k)H1:bj≠0(j=2,…,k)48第四節(jié)多元線性回歸模型預(yù)測一、對Y

平均值的點預(yù)測將解釋變量預(yù)測值的行向量代入樣本回歸函數(shù)即得Y的平均值的點預(yù)測值49二、對Y

平均值的區(qū)間預(yù)測

因為是隨機變量,所以也是隨機變量,為了由預(yù)測值去對總體真實均值E(Yf|Xf)

作區(qū)間估計,需要知道的分布及相關(guān)統(tǒng)計量。5051由于s2未知,當(dāng)用無偏估計代替s2時給定顯著性水平a,查t分布表,得臨界值ta/2,可得均值E(Yf)

置信度為1-a的預(yù)測區(qū)間為52三、對Y個別值的區(qū)間預(yù)測因為均服從正態(tài)分布,所以也服從正態(tài)分布,且即53由于s2未知,當(dāng)用無偏估計代替s2時給定顯著性水平a,查t分布表,得臨界值ta/2,可得Y的真實值Yf

的置信度為1-a的預(yù)測區(qū)間為54例2

以企業(yè)研發(fā)支出(R&D)占銷售額的比重為被解釋變量(Y),以企業(yè)銷售額(X1)與利潤占銷售額的比重(X2)為解釋變量,一個容量為32的樣本企業(yè)的估計結(jié)果如下:其中括號中為系數(shù)估計值的標準差。(1)解釋log(X1)的系數(shù)。如果X1增加10%,估計Y會變化多少個百分點?這在經(jīng)濟上是一個很大的影響嗎?(2)針對R&D強度隨銷售額的增加而提高這一備擇假設(shè),檢驗它不隨X1而變化的假設(shè)。分別在5%和10%的顯著性水平上進行這個檢驗。(3)利潤占銷售額的比重X2對R&D強度Y是否在統(tǒng)計上有顯著的影響?55解(1)log(X1)的系數(shù)表明在其他條件不變時,log(X1)變化1個單位,Y變化的單位數(shù),即Y=0.32log(X1)0.32(X1/X1)=0.32100%,換言之,當(dāng)企業(yè)銷售X1增長100%時,企業(yè)研發(fā)支出占銷售額的比重Y會增加32個百分點。由此如果X1增加10%,Y會增加3.2個百分點。這在經(jīng)濟上不是一個較大的影響。56(2)針對備擇假設(shè)

檢驗原假設(shè)

計算的t統(tǒng)計量的值為t=0.32/0.22=1.468。在5%的顯著性水平下,自由度為32-3=29的t

分布的臨界值為1.699(單側(cè)),計算的t值小于該臨界值,所以不拒絕原假設(shè)。意味著R&D強度不隨銷售額的增加而變化。在10%的顯著性水平下,t分布的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論