第4章自變量中含有定性變量的回歸分析_第1頁
第4章自變量中含有定性變量的回歸分析_第2頁
第4章自變量中含有定性變量的回歸分析_第3頁
第4章自變量中含有定性變量的回歸分析_第4頁
第4章自變量中含有定性變量的回歸分析_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 線性回歸模型的基本假定線性回歸模型的基本假定 誤差為獨立正態(tài)分布的隨機(jī)變量,其均值為零且方差相誤差為獨立正態(tài)分布的隨機(jī)變量,其均值為零且方差相等等(1)誤差項的數(shù)學(xué)期望為)誤差項的數(shù)學(xué)期望為0,表明估計的回歸方程中不存在系統(tǒng)性,表明估計的回歸方程中不存在系統(tǒng)性誤差(誤差(Systematic Error););(2)各誤差項的方差相等;)各誤差項的方差相等;(3)各誤差項之間的協(xié)方差為)各誤差項之間的協(xié)方差為0;以上三項基本假定一般又稱為以上三項基本假定一般又稱為Gauss-Markov高斯高斯-馬爾柯夫條件。馬爾柯夫條件。(4)自變量與誤差項之間的協(xié)方差為)自變量與誤差項之間的協(xié)方差為0,

2、不存在多重共線性;,不存在多重共線性;(5)自變量的樣本容量必須大于自變量的項數(shù)加自變量的樣本容量必須大于自變量的項數(shù)加1。多元回歸中的幾種重要模型多元回歸中的幾種重要模型 第一部分:多重共線情況的處理第一部分:多重共線情況的處理 第第3章章 嶺回歸分析(嶺回歸分析( Ridge Regression ) 第二部分:自變量中含定性變量的處理第二部分:自變量中含定性變量的處理 第第4章章 自變量中含有定性變量的回歸分析自變量中含有定性變量的回歸分析 第三部分:因變量中含有定性變量情況的處理第三部分:因變量中含有定性變量情況的處理 第第5章章 二項二項Logistic回歸回歸 第第6章章 多項多項

3、Logistic回歸回歸 第第7章章 有序回歸(等級回歸分析)有序回歸(等級回歸分析) 第第8章章 Probit回歸(概率單位回歸)回歸(概率單位回歸) 第第9章章 最佳尺度回歸最佳尺度回歸 本章總結(jié)本章總結(jié)第第4章章 自變量中含有定性變量的回歸分析自變量中含有定性變量的回歸分析 4.1 只有一個虛擬變量的回歸只有一個虛擬變量的回歸 4.2 含有多個虛擬變量的回歸含有多個虛擬變量的回歸 4.3 分段回歸分段回歸第第4章章 自變量中含有定性變量的回歸分析自變量中含有定性變量的回歸分析 在社會經(jīng)濟(jì)研究中,由許多定性變量,比如地區(qū)、民族、在社會經(jīng)濟(jì)研究中,由許多定性變量,比如地區(qū)、民族、性別、文化程

4、度、職業(yè)和居住地等。性別、文化程度、職業(yè)和居住地等。 可以應(yīng)用它們的信息進(jìn)行線性回歸??梢詰?yīng)用它們的信息進(jìn)行線性回歸。 但是,必須現(xiàn)將定性變量轉(zhuǎn)換為虛擬變量(但是,必須現(xiàn)將定性變量轉(zhuǎn)換為虛擬變量( (dummy variable)也稱啞變量或定性變量),然后再將它們引入也稱啞變量或定性變量),然后再將它們引入方程,所得的回歸結(jié)果才有明確的解釋意義。方程,所得的回歸結(jié)果才有明確的解釋意義。 只取只取0和和1兩個值的變量稱為虛擬變量。兩個值的變量稱為虛擬變量。 對于具有對于具有k類的定性變量來說,設(shè)虛擬變量時,我們只類的定性變量來說,設(shè)虛擬變量時,我們只設(shè)設(shè)k-1個虛擬變量。個虛擬變量?;貧w模型中

5、使用虛擬自變量時,稱為回歸模型中使用虛擬自變量時,稱為虛擬自變量虛擬自變量的回歸的回歸當(dāng)虛擬自變量只有當(dāng)虛擬自變量只有兩個水平兩個水平時,可在回歸中引入時,可在回歸中引入一個虛一個虛擬變量擬變量比如,性別比如,性別(男,女男,女) 一般而言,如果定性自變量有一般而言,如果定性自變量有k個水平個水平/類別類別,需要在回,需要在回歸中模型中歸中模型中引進(jìn)引進(jìn)k-1個虛擬變量個虛擬變量,如果引入,如果引入k個虛擬變量個虛擬變量將會產(chǎn)生完全多重共線性問題(稱為將會產(chǎn)生完全多重共線性問題(稱為虛擬變量陷阱虛擬變量陷阱)121111211,000kkxxx水平水平水平其他水平其他水平其他水平虛擬變量作為解

6、釋變量引入模型有兩種基本方式:虛擬變量作為解釋變量引入模型有兩種基本方式:加法方式和乘法方式。加法方式和乘法方式。(1)加法)加法方式方式引進(jìn)虛擬變量引進(jìn)虛擬變量建立回歸方程:建立回歸方程:E(Y)= 0+ 1x1+ 2x2+ 3x3(加法公式)(加法公式)0家電制造業(yè)投訴次數(shù)的平均值家電制造業(yè)投訴次數(shù)的平均值 (0+ 1)零售業(yè)投訴次數(shù)的平均值零售業(yè)投訴次數(shù)的平均值 (0+ 2)旅游業(yè)投訴次數(shù)的平均值旅游業(yè)投訴次數(shù)的平均值 (0+ 3)航空公司投訴次數(shù)的平均值航空公司投訴次數(shù)的平均值 123111,000 xxx零售業(yè)旅游業(yè)航空公司其他行業(yè)其他行業(yè)其他行業(yè)例:考慮例:考慮個人保健支出對個人收

7、入和教育水平的回歸個人保健支出對個人收入和教育水平的回歸。教育水。教育水平考慮三個層次:高中以下,高中,大學(xué)及其以上平考慮三個層次:高中以下,高中,大學(xué)及其以上 這時需要引入兩個虛擬變量:這時需要引入兩個虛擬變量:D1= 1 高中高中 0 其它其它D2= 1 大學(xué)及其以上大學(xué)及其以上 0 其它其它模型可設(shè)定如下:模型可設(shè)定如下:i012132iiiiYXDD高中以下: E(Yi|Xi,D1i=0,D2i=0)=0+1Xi高中: 大學(xué)及其以上: E(Yi|Xi,D1i=1,D2i=0)=(0+2 )+1Xi E(Yi|Xi,D1i=0,D2i=1)=(0+3 )+1Xi在在()iE= =0 0的

8、初始假定下,容易得到高中以下、高中、大學(xué)及其以上的初始假定下,容易得到高中以下、高中、大學(xué)及其以上教育水平個人平均保健支出的函數(shù):教育水平個人平均保健支出的函數(shù):32000假定假定,且,且,則其幾何意義如圖,則其幾何意義如圖1所示。所示。圖圖1 不同教育程度人員保健支出示意圖不同教育程度人員保健支出示意圖有相同的斜率,但有不有相同的斜率,但有不同的截距同的截距 (2)乘法方式)乘法方式斜率的變化斜率的變化 例:根據(jù)消費理論,消費水平例:根據(jù)消費理論,消費水平C主要取決于收入水平主要取決于收入水平X。但。但在一個較長的時期,人們的消費傾向會發(fā)生變化,尤其是在在一個較長的時期,人們的消費傾向會發(fā)生

9、變化,尤其是在自然災(zāi)害、戰(zhàn)爭等反常年份,消費傾向往往出現(xiàn)變化。這種自然災(zāi)害、戰(zhàn)爭等反常年份,消費傾向往往出現(xiàn)變化。這種消費傾向的變化可通過在收入的系數(shù)中引入虛擬變量來考察。消費傾向的變化可通過在收入的系數(shù)中引入虛擬變量來考察。 設(shè)設(shè) Dt= 1 正常年份正常年份 0 反常年份反常年份則消費模型可建立如下:則消費模型可建立如下:012tttttCXD X 這里,虛擬變量這里,虛擬變量 Dt 以與以與 Xt 相乘的方式引入了模型中,相乘的方式引入了模型中,從而可用來考察消費傾向的變化。從而可用來考察消費傾向的變化。 在在E(t)=0的假定下,上述模型所表示的函數(shù)可化為的假定下,上述模型所表示的函數(shù)

10、可化為:正常年份:正常年份: 012(,1)()ttttE C X DX反常年份:反常年份: 01(,0)ttttE C X DX圖圖2 不同年份消費傾向示意圖不同年份消費傾向示意圖假定假定20 0,則其幾何圖形如圖則其幾何圖形如圖2 2所示。所示。 如果在模型中如果在模型中同時使用加法和乘法兩種方式引入虛擬同時使用加法和乘法兩種方式引入虛擬變量變量,則回歸線的截距和斜率都會改變。,則回歸線的截距和斜率都會改變。 例如:例如: 對于改革開放前后儲蓄對于改革開放前后儲蓄- -收入模型,可設(shè)定為收入模型,可設(shè)定為0112()ttttttYDXD X其中,其中,Y Y為儲蓄,為儲蓄,X X為收入,為

11、收入,D Dt t為虛擬變量為虛擬變量 D Dt t= = 1 1 改革開放以后改革開放以后0 改革開放以前改革開放以前顯然在上式中,同時使用加法和乘法兩種方式引入了虛擬變顯然在上式中,同時使用加法和乘法兩種方式引入了虛擬變量。量。 在在E(E(t t)=0)=0的假定下,上述模型所表示的函數(shù)可化為的假定下,上述模型所表示的函數(shù)可化為: : 改革開放以前:改革開放以前: E(Yt|Xt,Dt=0)=0+1Xt改革開放以后:改革開放以后: E(Yt|Xt,Dt=1)=(0+1) +(1 2 ) Xt則其幾何圖形如圖則其幾何圖形如圖3所示。所示。12假定假定0且且0,改革開放以前改革開放以前改革開

12、放以后改革開放以后X XY圖圖3 改革開放前后儲蓄函數(shù)示意圖改革開放前后儲蓄函數(shù)示意圖例如:例如: 家庭教育經(jīng)費支出不僅取決于其收入,而且與年齡因素有關(guān)。家庭教育經(jīng)費支出不僅取決于其收入,而且與年齡因素有關(guān)。 按年齡劃分為三個年齡組:按年齡劃分為三個年齡組:618歲年齡組(中小學(xué)教育);歲年齡組(中小學(xué)教育);1922歲歲年齡組(大學(xué)教育);其它年齡組。于是設(shè)定虛擬變量年齡組(大學(xué)教育);其它年齡組。于是設(shè)定虛擬變量D1= 1 6-18歲年齡組歲年齡組 0 其它其它D2= 1 19-22年齡組年齡組 0 其它其它則家庭教育經(jīng)費支出模型可設(shè)定為則家庭教育經(jīng)費支出模型可設(shè)定為012132iiiii

13、YXDD 其中,其中,Yi是第是第i個家庭的教育經(jīng)費支出;個家庭的教育經(jīng)費支出;Xi是第是第i個家庭的收人;個家庭的收人;虛擬變量虛擬變量D1i、D2i分別表示第分別表示第i家庭中是否有家庭中是否有618歲和歲和1922歲的成員。歲的成員。數(shù)值變量作為虛擬變量引入:有些變量雖然是數(shù)量變量,即可以獲得數(shù)值變量作為虛擬變量引入:有些變量雖然是數(shù)量變量,即可以獲得實際觀測值,但在某些特定情況下把它選取為虛擬變量則是方便的,實際觀測值,但在某些特定情況下把它選取為虛擬變量則是方便的,以虛變量引入計量經(jīng)濟(jì)學(xué)模型更加合理。以虛變量引入計量經(jīng)濟(jì)學(xué)模型更加合理。 譬如年齡因素雖然可以用數(shù)字計量,但如果將年齡作

14、為資料分組的特譬如年齡因素雖然可以用數(shù)字計量,但如果將年齡作為資料分組的特征,則可將年齡選作虛擬變量。征,則可將年齡選作虛擬變量。虛擬變量交互效應(yīng)分析虛擬變量交互效應(yīng)分析 當(dāng)分析解釋變量對變量的影響時,大多數(shù)情形只是分析了解當(dāng)分析解釋變量對變量的影響時,大多數(shù)情形只是分析了解釋變量自身變動對被解釋變量的影響作用,而沒有深入分析釋變量自身變動對被解釋變量的影響作用,而沒有深入分析解釋變量間的相互作用對被解釋變量影響。解釋變量間的相互作用對被解釋變量影響。 前面討論的分析兩個定性變量對被解釋變量影響的虛擬變量前面討論的分析兩個定性變量對被解釋變量影響的虛擬變量模型中,暗含著一個假定:兩個定性變量是

15、分別獨立地影響模型中,暗含著一個假定:兩個定性變量是分別獨立地影響被解釋變量的被解釋變量的 但是在實際經(jīng)濟(jì)活動中,兩個定性變量對被解釋變量的影響但是在實際經(jīng)濟(jì)活動中,兩個定性變量對被解釋變量的影響可能存在一定的交互作用,即一個解釋變量的邊際效應(yīng)有時可能存在一定的交互作用,即一個解釋變量的邊際效應(yīng)有時可能要依賴于另一個解釋變量。可能要依賴于另一個解釋變量。 為描述這種交互作用,可以為描述這種交互作用,可以把兩個虛擬變量的乘積以加法形把兩個虛擬變量的乘積以加法形式引入模型式引入模型。4.1 只含一個虛擬自變量的回歸只含一個虛擬自變量的回歸【例例】為研究為研究考試成績與性考試成績與性別之間的關(guān)系別之

16、間的關(guān)系,從某大學(xué)商,從某大學(xué)商學(xué)院隨機(jī)抽取學(xué)院隨機(jī)抽取男女學(xué)生各男女學(xué)生各8名,得到他們名,得到他們的市場營銷學(xué)的市場營銷學(xué)課程的考試成課程的考試成績?nèi)缬冶砜內(nèi)缬冶?男 女66.875 14.875yx引進(jìn)虛擬變量時,回歸方程可寫為:引進(jìn)虛擬變量時,回歸方程可寫為:E(y) = 0+ 1x男男(x=0):E(y) = 0男學(xué)生考試成績的期望值男學(xué)生考試成績的期望值女女(x=1):E(y) = 0+ 1女學(xué)生考試成績的期望值女學(xué)生考試成績的期望值注意:當(dāng)指定虛擬變量注意:當(dāng)指定虛擬變量0,1時時 0總是代表總是代表與虛擬變量值與虛擬變量值0所對應(yīng)的那個分類變量水平的所對應(yīng)的那個分類變量水平的平

17、均值平均值 1總是代表總是代表與虛擬變量值與虛擬變量值1所對應(yīng)的那個分類變量水平所對應(yīng)的那個分類變量水平的的平均值與虛擬變量值平均值與虛擬變量值0所對應(yīng)的那個分類變量水平的平均所對應(yīng)的那個分類變量水平的平均值的值的差值差值,即,即 平均值的差值平均值的差值=( 0+ 1) - 0= 1 【 例例 2 】為為研究工資水研究工資水平與工作年平與工作年限和性別之限和性別之間的關(guān)系,間的關(guān)系,在某行業(yè)中在某行業(yè)中隨機(jī)抽取隨機(jī)抽取10名職工,所名職工,所得數(shù)據(jù)如右得數(shù)據(jù)如右表表ANOVAb900092324500461.30021.357.001a14750777210725.3431.0E+079Re

18、gressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), X2, X1a. Dependent Variable: Yb. Coefficientsa930.495466.9741.993.087387.61662.565.9316.195.0001262.693314.127.6044.020.005(Constant)X1X2Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Depen

19、dent Variable: Ya. Model Summary.927a.859.819 459.048RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), X2, X1a. 引進(jìn)虛擬變量時,回歸方程可寫為:引進(jìn)虛擬變量時,回歸方程可寫為: E(y) = 0+ 1x1+ 2x2女女( x2=0):E(y|女性女性) = 0 + 1x1男男(x2=1):E(y|男性男性) =( 0 + 2 ) + 1x1 0的含義表示:女性職工的期望月工資收入的含義表示:女性職工的期望月工資收入 ( 0+ 2)的含義

20、表示:男性職工的期望月工資收入的含義表示:男性職工的期望月工資收入 1含義表示:工作年限每增加含義表示:工作年限每增加1年,男性或女性工資的平年,男性或女性工資的平均增加值均增加值 2含義表示:男性職工的期望月工資收入與女性職工的含義表示:男性職工的期望月工資收入與女性職工的期望月工資收入之間的差值期望月工資收入之間的差值 ( 0+ 2) - 0= 24.2 含多個虛擬自變量的回歸含多個虛擬自變量的回歸 例例3:分析某地區(qū)婦女的年齡、文化程度及居住地狀況:分析某地區(qū)婦女的年齡、文化程度及居住地狀況對其曾生子女?dāng)?shù)的影響。對其曾生子女?dāng)?shù)的影響。 定量變量定量變量: 年齡年齡 定性變量定性變量:文化

21、程度、地區(qū)文化程度、地區(qū) 原變量編碼值原變量編碼值 虛擬變量賦值的操作虛擬變量賦值的操作文化程度文化程度=1(文盲)(文盲) 所有所有EDU=0文化程度文化程度=2(小學(xué))(小學(xué)) EDU2=1,其他其他EDU=0文化程度文化程度=3(初中)(初中) EDU3=1,其他其他EDU=0文化程度文化程度=4(高中)(高中) EDU4=1,其他其他EDU=0文化程度文化程度=5(大學(xué))(大學(xué)) EDU5=1,其他其他EDU=0 地區(qū)地區(qū)=1(城市)(城市) AREA=1 地區(qū)地區(qū)=2(農(nóng)村)(農(nóng)村) AREA=0A AN NO OV VA Ab b18.58663.09832.759.000a.85

22、19.09519.43815RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), AREA, ED3, 年齡, ED2, ED4, ED5a. Dependent Variable: 生子女?dāng)?shù)b. M Mo od de el l S Su um mm ma ar ry y.978a.956.927.30751Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), AREA, ED

23、3, 年齡, ED2, ED4,ED5a. 應(yīng)用應(yīng)用SPSSSPSS建立回歸方程建立回歸方程C Co oe ef ff fi ic ci ie en nt ts sa a1.409.6822.066.069.068.013.5695.183.001-1.127.295-.399-3.820.004-1.309.352-.514-3.723.005-1.576.382-.558-4.127.003-1.569.370-.616-4.240.002-.486.162-.220-2.989.015(Constant)年齡ED2ED3ED4ED5AREAModel1BStd. ErrorUnstand

24、ardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 生子女?dāng)?shù)a. 回歸方程的解釋回歸方程的解釋當(dāng)案例在兩個分類變量都等于當(dāng)案例在兩個分類變量都等于0時,即文化程度為文盲,居住地在農(nóng)村時,即文化程度為文盲,居住地在農(nóng)村時,此種情況稱為參照類(其他情況將與此進(jìn)行比較),其回歸方程為:時,此種情況稱為參照類(其他情況將與此進(jìn)行比較),其回歸方程為:表明所有參照類婦女年齡每上升表明所有參照類婦女年齡每上升1歲,其曾生子女?dāng)?shù)的平均變化量為歲,其曾生子女?dāng)?shù)的平均變化量為0.068個。個。 當(dāng)文化程度為小學(xué),居住地為

25、農(nóng)村時:當(dāng)文化程度為小學(xué),居住地為農(nóng)村時: 表明,對于相同年齡和居住地而言,小學(xué)文化程度婦女比文表明,對于相同年齡和居住地而言,小學(xué)文化程度婦女比文盲婦女曾生子女?dāng)?shù)多出盲婦女曾生子女?dāng)?shù)多出b2個部分,即少生個部分,即少生1.13個子女。個子女。 當(dāng)教育程度為文盲、居住地為城市時,當(dāng)教育程度為文盲、居住地為城市時,表明,對于相同年齡和文化程度而言,城市婦女比農(nóng)村表明,對于相同年齡和文化程度而言,城市婦女比農(nóng)村婦女曾生子女?dāng)?shù)多出婦女曾生子女?dāng)?shù)多出b6個部分,即少生個部分,即少生0.49個子女。個子女。 總之,該回歸方程表示總之,該回歸方程表示: 參照類參照類婦女曾生子女?dāng)?shù)對年齡的回歸直線的婦女曾生

26、子女?dāng)?shù)對年齡的回歸直線的截?fù)?jù)為截?fù)?jù)為1.41,年,年齡每上升齡每上升1歲,參照類婦女歲,參照類婦女平均曾生子女?dāng)?shù)上升平均曾生子女?dāng)?shù)上升0.068個。個。 城市婦女城市婦女比農(nóng)村婦女的平均曾生子女?dāng)?shù)比農(nóng)村婦女的平均曾生子女?dāng)?shù)少少0.49個。個。 小學(xué)、初中、高中和大學(xué)小學(xué)、初中、高中和大學(xué)文化程度婦女的平均曾生子女?dāng)?shù)文化程度婦女的平均曾生子女?dāng)?shù)分別比文盲婦女分別比文盲婦女少少1.13、1.31、1.58、1.57個個(在年齡和居(在年齡和居住地相同時)。住地相同時)。 文化程度在實際中是一個序次變量??梢杂梦幕潭仍趯嶋H中是一個序次變量??梢杂?表示表示序次變量個相鄰分類的實際效應(yīng)序次變量個相鄰分類的實際效應(yīng),如初中的邊際效應(yīng)為:,如初中的邊際效應(yīng)為:w類似,可以計算下面的邊際效應(yīng):類似,可以計算下面的邊際效應(yīng):w小學(xué)小學(xué)= -1.13

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論