應用統(tǒng)計學 第六章 回歸分析2.ppt_第1頁
應用統(tǒng)計學 第六章 回歸分析2.ppt_第2頁
應用統(tǒng)計學 第六章 回歸分析2.ppt_第3頁
應用統(tǒng)計學 第六章 回歸分析2.ppt_第4頁
應用統(tǒng)計學 第六章 回歸分析2.ppt_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、四、多元線性回歸模型的延伸,在實際經濟活動中,經濟變量的關系是復雜的,直接表現為線性關系的情況并不多見。 如著名的C-D生產函數表現為冪函數曲線形式、宏觀經濟學中的菲利普斯曲線(Pillips cuves)表現為雙曲線形式等。 但是,大部分非線性關系又可以通過一些簡單的數學處理,使之化為數學上的線性關系,從而可以運用線性回歸模型的理論方法。,1、倒數模型、多項式模型與變量的直接置換法,例如,描述稅收與稅率關系的拉弗曲線:拋物線 s = a + b r + c r2 c0 s:稅收; r:稅率,設X1 = r,X2 = r2, 則原方程變換為 s = a + b X1 + c X2 c0,倒數模

2、型,模型特點:隨著x無限增大, 項趨于0,y趨于極限值。 分三種類型:,平均固定成本與產出水平,菲利普斯曲線,恩格爾曲線,倒數模型的線性化:令 原方程變?yōu)椋簓=1+2zi+i,2、冪函數模型、指數函數模型與對數變換法,例如,Cobb-Dauglas生產函數:冪函數 Q = AKL Q:產出量,K:投入的資本;L:投入的勞動,方程兩邊取對數: ln Q = ln A + ln K + ln L,對數線性模型測度彈性,對數線性模型的特點:斜率系數測度了Q對L的彈性:,ln Qi = ln A + ln Ki + ln Li+i,例 美國咖啡需求:1970-1980,美國咖啡消費(y)與平均真實零售

3、價格(x)數據如表,(x=名義價格/食品與飲料的消費者價格指數,1967年=100),求咖啡消費函數。 輸入數據 建立模型: lny=+lnx+i 參數估計: 與線形模型比較,線性模型,對數線性模型,R2=0.663 1=-0.480,R2=0.745 1=-0.253,哪個模型更好(參數估計的精度、擬合程度)? 回歸參數的意義?,R2的可比性問題,根據判定系數來比較兩個模型的時候,一定要注意樣本容量n和因變量都必須相同,而解釋變量則可取任何形式。 對咖啡需求的兩個模型: yi=+xi+i lnyi=+lnxi+I R2項是不可直接相比的,因為它們是不同尺度的。要比較必須進行處理。,不同尺度R

4、2的比較方法,以咖啡需求為例 yi=+xi+i (1) lnyi=+lnxi+i (2) 方法一:對模型(1)得到的 取對數,然后求其與方程(2)的lnyi之間的R2,此R2與(2)的判定系數有可比性。 (1)轉換后的R2=0.677線性模型的R2 兩種方法比較結果相同:對數線性模型的擬合程度高于線性模型。,半對數模型-測度增長率,假如要求GDP的增長率,有如下公式: yt=y0(1+r)t 指數函數 其中,yt:時間t的實際GDP; y0:實際GDP的初始值;r:y的復合增長率。 兩邊取對數:lnyt=lny0+tln(1+r) 令1=lny0 ,2=ln(1+r),并增加干擾項 方程變?yōu)椋?/p>

5、 lnyt =1+2t+i半對數模型 模型特點:,2:測度了GDP的恒定相對增長率。,例:,用例5數據,求1956-1970年美國個人可支配收入的增長率。X2:個人可支配收入,x3:時間變量 模型:lnx2i= 1+2x3i+i 求解過程 結果:,2=0.04228,說明56-70年間,美國個人可支配收入每年增長4.23%,比較線性趨勢模型:x2i= b2+b23x3i+i,b23=17.13,說明個人可支配收入每年平均增長17億美元。,3、復雜函數模型與級數展開法,方程兩邊取對數后,得到:,(1+2=1),Q:產出量,K:資本投入,L:勞動投入 :替代參數, 1、2:分配參數,例如,常替代彈

6、性CES生產函數,將式中l(wèi)n(1K- + 2L-)在=0處展開臺勞級數,取關于的線性項,即得到一個線性近似式。,如取0階、1階、2階項,可得,五、含虛擬變量的回歸,一些影響經濟變量的因素是無法定量度量。為了在模型中能夠反映這些因素的影響,并提高模型的精度,需要將它們“量化”。 虛擬變量(定類尺度變量、范疇變量): 用來表示某一“性質”或屬性出現或不出現,通常取值0或1,因而也稱兩值變量或兩分變量。 如:x表示性別,0=男性,1=女性 或x=0表示政策實施前,x=1表示政策實施后。 同時含有一般解釋變量與虛擬變量的模型稱為虛擬變量模型或者方差分析(analysis-of variance: AN

7、OVA)模型。,被賦予0值的類別是基底(基準),1是基底類的截距。,1、虛擬變量的性質,例:教授薪金與性別、教齡的關系 Yi=1+2Di+Xi+I (1) 其中:Yi=教授的薪金, Xi=教齡, Di=性別,男教授平均薪金和女教授平均薪金水平相差2,但平均年薪對教齡的變化率是一樣的,2:級差截距系數,薪金與性別:估計結果,男教授平均薪金水平比 女教授顯著高$3.334K (男:21.3,女:17.969),2、含有虛擬變量的回歸問題,虛擬變量的設計 對多分定性變量,按照虛擬變量的個數比變量分類數少一的規(guī)則設虛擬變量。 例如受教育程度分為:低于中學、中學和大學三類,則應設兩個虛擬變量:,Yi=1

8、+2D2i+3D3i+Xi+i,“低于中學”類為基底,為什么不能設三個虛擬變量?,2、含有虛擬變量的回歸問題,美國制造業(yè)的利潤-銷售額行為季節(jié)調整例,D2=1, 第2季度 ; D3=1, 第3季度; D4=1, 第4季度 =0, 其他季度; =0, 其他季度; =0, 其他季度,剔除季節(jié)影響,銷售額增加1美元,利潤可望增加4美分,3、比較兩個回歸,比較英國在第二次大戰(zhàn)后重建時期和重建后時期的總儲蓄-收入關系是否發(fā)生變化。數據如表。,D=1,重建時期 =0,重建后時期,級差截距:區(qū)分兩個時期的截距,級差斜率系數:區(qū)分兩個時期的斜率,級差截距和級差斜率系數都是統(tǒng)計上顯著的,表示兩個時期的回歸是相異

9、的,虛擬變量模型與方差分析,新食品定價和廣告策略研究例,協(xié)變量調整前,協(xié)變量調整后,六、 模型設定偏誤問題,模型設定偏誤的類型 模型設定偏誤的后果 模型設定偏誤的檢驗,1、模型設定偏誤的類型,模型設定偏誤主要有兩大類: (1)關于解釋變量選取的偏誤,主要包括漏選相關變量和多選無關變量, (2)關于模型函數形式選取的偏誤。,a. 相關變量的遺漏(omitting relevant variables),例如,如果“正確”的模型為:,而我們將模型設定為:,即設定模型時漏掉了一個相關的解釋變量。 這類錯誤稱為遺漏相關變量。,b. 無關變量的誤選 (including irrevelant varia

10、bles),例如,如果 Y=0+1X1+2X2+ 仍為“真”,但我們將模型設定為: Y=0+ 1X1+ 2X2+ 3X3 +,即設定模型時,多選了一個無關解釋變量。,c. 錯誤的函數形式 (wrong functional form),例如,如果“真實”的回歸函數為:,但卻將模型設定為:,2、模型設定偏誤的后果,當模型設定出現偏誤時,模型估計結果也會與“實際”有偏差。這種偏差的性質及程度與模型設定偏誤的類型密切相關。,1) 遺漏相關變量偏誤,采用遺漏相關變量的模型進行估計而帶來的偏誤稱為遺漏相關變量偏誤(omitting relevant variable bias)。,設正確的模型為: Y=

11、0+1X1+2X2+ 卻對 Y=0+ 1X1+v 進行回歸,得:,將正確模型 Y=0+1X1+2X2+ 的離差形式:,代入,得:,(1)如果漏掉的X2與X1相關,則上式中的第二項在小樣本下求期望與大樣本下求概率極限都不會為零,從而使得OLS估計量在小樣本下有偏,在大樣本下非一致。,(2)如果X2與X1不相關,則1的估計滿足無偏性與一致性;但這時0的估計卻是有偏的。,何時1被高估?,由 Y=0+ 1X1+v 得:,由 Y=0+1X1+2X2+ 得:,如果X2與X1相關,顯然有,如果X2與X1不相關,也有,Why?,2) 包含無關變量偏誤,采用包含無關解釋變量的模型進行估計帶來的偏誤,稱為包含無關

12、變量偏誤(including irrelevant variable bias)。,設 Y=0+ 1X1+v (*) 為正確模型,但卻估計了 Y=0+1X1+2X2+ (*),如果2=0,則(*)與(*)相同,因此,可將(*)式視為以2=0為約束的(*)式的特殊形式。,由于所有的經典假設都滿足,因此對 Y=0+1X1+2X2+ (*) 式進行OLS估計,可得到無偏且一致的估計量。,但是,OLS估計量卻不具有最小方差性。,Y=0+ 1X1+v 中X1的方差:,Y=0+1X1+2X2+ 中X1的方差:,當X1與X2完全線性無關時:,否則:,注意:,方程中包含無關變量,OLS估計量的誤差增大,3)

13、錯誤函數形式的偏誤,當選取了錯誤函數形式并對其進行估計時,帶來的偏誤稱錯誤函數形式偏誤(wrong functional form bias)。容易判斷,這種偏誤是全方位的。,例如,如果“真實”的回歸函數為:,卻估計線性式,顯然,兩者的參數具有完全不同的經濟含義,且估計結果一般也是不相同的。,3、模型設定偏誤的檢驗,a. 檢驗是否含有無關變量,可用t 檢驗與F檢驗完成。 檢驗的基本思想:如果模型中誤選了無關變量,則其系數的真值應為零。因此,只須對無關變量系數的顯著性進行檢驗。 t檢驗:檢驗某1個變量是否應包括在模型中;,F檢驗:檢驗若干個變量是否應同時包括在模型中。,b. 檢驗是否有相關變量的

14、遺漏或函數形式設定偏誤,殘差圖示法,殘差序列變化圖,(a)趨勢變化 :模型設定時可能遺漏了一隨著時間的推移而持續(xù)上升的變量,(b)循環(huán)變化:模型設定時可能遺漏了一隨著時間的推移而呈現循環(huán)變化的變量,模型函數形式設定偏誤時殘差序列呈現正負交替變化,圖示:一元回歸模型中,真實模型呈冪函數形式,但卻選取了線性函數進行回歸。,七、用回歸模型作預測,E(Y0)的置信區(qū)間 Y0的置信區(qū)間,1、E(Y0)的置信區(qū)間,于是,得到(1-)的置信水平下E(Y0)的置信區(qū)間:,其中,t/2為(1-)的置信水平下的臨界值。,2、Y0的置信區(qū)間,八、線性回歸過程,選擇建立回歸方程的方法,可以對不同的自變量采用不同的引入

15、方法,選擇進入回歸分析的樣本點,加權最小二乘法,單擊此按鈕可輸入加權變量,Method選擇框:,建立回歸方程的方法有五種可供選擇: Enter(強迫引入法):定義的全部自變量均引入方程。 Remove(強迫剔除法):定義的全部自變量均剔除。 Forward(向前引入法):自變量由少到多一個一個引入回歸方程,直到不能按檢驗水準引入新的變量為止。缺點:當兩個變量一起時效果好,單獨時效果不好,有可能只引入其中一個變量,或兩個變量都不能引入。,Method選擇框:,Backward(向后剔除法):自變量由多到少一個一個從回歸方程中剔除,直到不能按檢驗水準剔除為止。能克服向前引入的缺點。 Stepwis

16、e(逐步回歸):將向前引入法和向后剔除法結合起來,在向前引入的每一步之后都要考慮從已引入方程的變量中剔除作用不顯著的變量,直到沒有一個自變量能引入方程,也沒有一個自變量能從方程中剔除為止。缺點同向前引入法,但選中的變量比較精悍。,Statistics對話框,D-W檢驗:檢驗隨機誤差項的獨立性(序列相關性),個案診斷:特異值或全部樣本,顯示其標準化殘差、實測值、預測值和殘差。,默認選項,共線診斷,Plots對話框,散點圖:輸入縱坐標和橫坐標。為獲得更多散點圖,可單擊“next”按鈕,標準化殘差圖,直方圖,殘差的正態(tài)概率圖,DEPENDENT:因變量,*ZPRED:標準化預測值,*ZRESID:標

17、準化殘差, *DRESID:刪除的殘差,*ADJPRED:調整預測值,*SRESID:student氏殘差,*SDRESID: student氏刪除殘差。,預測值的標準誤,預測區(qū)間估計:均值的預測區(qū)間和個體y值的預測區(qū)間,Save對話框,Option對話框,逐步方法準則:以F的概率p值為準則或以F值為準則(均給出引入值和剔除值),當F的p值小于等于引入值時,引入相應變量;當F的p值大于等于剔除值時,剔除相應變量。,逐步回歸簡介,一種選擇變量的方法 目的:使最終方程只包含對因變量有顯著影響的自變量 基本思想: 根據各變量對方程影響的大小,逐次選入到回歸方程中 如果先前被選入方程的變量由于后入的變

18、量而失去了重要性,則從方程中淘汰。 持續(xù)上述過程,直到回歸方程不再有可淘汰的變量,也沒有再可引入的變量時為止。 需解決的問題:如何度量某個變量在回歸方程中做出的貢獻,如何檢驗此作用是否顯著?,一個解釋變量的“邊際”貢獻,例7 1956-1970年美國個人消費PCE(y)和個人可支配收入PDI(x2)數據如表。 做回歸:yt=b1+b12x2t+1t (1),針對可能存在的謬誤相關,引入時間趨勢變量x3 做新回歸: yt=1+2x2t+3x3t+t (2),一個解釋變量的“邊際”貢獻,解釋變量的“邊際”貢獻:指當計量經濟模型已存在若干個解釋變量時,再新增加一個解釋變量,這個解釋變量的引入是否相對

19、于SSE來說,“顯著地”增加了SSR,從而增加了R2。 例7:美國個人消費支出和個人可支配收入模型, yt=b1+b12x2t+1t (1) 新增加一個時間趨勢變量x3,模型變?yōu)椋?yt=1+2x2t+3x3t+t (2) 新模型的判定系數R2是否由于新解釋變量x3的引入而顯著增加了x3的邊際貢獻問題,新變量增量貢獻的方差分析表,為了評估x3的增量貢獻,構造F統(tǒng)計量:,例7 時間趨勢變量的邊際貢獻,變異來源,平方和(SS),df,均方和,SSR僅由于x2,SSR由于x3的加入,SSR由于x2和x3,SSE,總計(TSS),Q1=65898.2354,Q2=Q3-Q1=66.866,Q3=659

20、65.10098,Q4=77.16902,Q5=66042.27,1,1,2,12,14,65898.2,66.866,32982.6,6.43075,F服從(1,12)的F分布,查F表可知F值在1%水平上顯著,時間變量的引入顯著地增大SSR,應把時間變量加到模型中來,逐步回歸例,29例兒童的血液中血紅蛋白(y,g)與鈣(x1)、鎂(x2)、鐵(x3)、錳(x4)及銅(x5)的含量如表。用逐步回歸方法篩選對血紅蛋白有顯著作用的微量元素。 Linear主對話框:血紅蛋白-因變量,其它-自變量,Method:stepwise Option: use probability of F欄中Entry:

21、0.10, Remove:0.11 做殘差分析,p=0.08,F0.05=4.22,鈣的影響是否顯著?如何判斷?,本章小結 多元回歸模型,多元回歸模型描述了被解釋變量與諸解釋變量的依賴關系 偏回歸系數i表示其它解釋變量不變的條件下,第i個解釋變量變化對被解釋變量的 “凈” 影響。 偏回歸系數的估計方法:最小二乘估計 當經典假設滿足時,OLS估計量為最優(yōu)線性無偏估計量,多元回歸模型的建模過程,明確所研究的問題,確定因變量 通過定性分析,找到導致因變量變化的主要影響因素,作為解釋變量 收集數據,整理數據,數據的初步分析 分析因變量與各解釋變量間關系的性質,確定模型的函數形式 建立計量模型,確定各偏回歸系數的先驗符號,多元回歸模型的建模過程(續(xù)),用OLS估計模型的參數,并作各種檢驗 經典假設檢驗:多重共線、異方差、序列相關 如果存在異方差/序列相關,統(tǒng)計檢驗無效 統(tǒng)計檢驗:t檢驗,F檢驗,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論