含定性變量的回歸模型教學(xué)_第1頁
含定性變量的回歸模型教學(xué)_第2頁
含定性變量的回歸模型教學(xué)_第3頁
含定性變量的回歸模型教學(xué)_第4頁
含定性變量的回歸模型教學(xué)_第5頁
已閱讀5頁,還剩118頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、含定性變量的回歸模型含定性變量的回歸模型 在實際問題的研究中,經(jīng)常會出現(xiàn)一些非數(shù)量型變量,如性別、文化程度、婚姻狀況、地區(qū)、季節(jié)等. 例如在建立經(jīng)濟(jì)模型時,往往要考慮某些重要政策出臺前后的不同影響;在建立糧食產(chǎn)量的預(yù)測模型時,要考慮到正常年份與受災(zāi)年份的不同影響;在研究生產(chǎn)函數(shù)時,勞動者的素質(zhì)、文化程度對產(chǎn)出也產(chǎn)生明顯的影響. 我們將這些非數(shù)量型的變量統(tǒng)稱為定性變量. 本章主要介紹如何建立含定性變量的回歸模型,這類模型大致分為二類: 1.自變量含定性變量的回歸模型自變量含定性變量的回歸模型 2.因變量含定性變量的回歸模型因變量含定性變量的回歸模型兩類值情形量化自變量的取值多類值情形1.自變量含

2、定性變量的回歸問題分段回歸模型應(yīng)用系數(shù)檢驗1 自變量中含定性變量的回歸模型 簡單情況首先討論定性變量只取兩類可能值的情況,如 :例調(diào)查文化程度對家庭儲蓄的影響 Model SummaryModel Summaryc c.786a.618.6032245.984.938b.879.8691288.679Model12RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), x1a. Predictors: (Constant), x1, x2b. Dependent Variable: yc. 如果不引入家

3、庭學(xué)歷定性變量2x,僅用y對家庭年收入1x作一 元 線 性 回 歸 , 得 決 定 系 數(shù)618. 02R,說明擬和效果不好。 ANOVAANOVAc c2.04E+081204118373.540.464.000a1.26E+08255044445.6853.30E+08262.90E+082145186438.087.425.000b39856640241660693.3213.30E+0826RegressionResidualTotalRegressionResidualTotalModel12Sum ofSquaresdfMean SquareFSig.Predictors: (Co

4、nstant), x1a. Predictors: (Constant), x1, x2b. Dependent Variable: yc. CoefficientsCoefficientsa a-7728.0981904.769-4.057.0003264.453513.188.7866.361.000-7976.8091093.445-7.295.0003826.129304.591.92112.562.000-3700.330513.445-.529-7.207.000(Constant)x1(Constant)x1x2Model12BStd. ErrorUnstandardizedCo

5、efficientsBetaStandardizedCoefficientstSig.Dependent Variable: ya. 1)低學(xué)歷家庭收入每增加1萬元,平均拿出3826元作為儲蓄;2)高學(xué)歷家庭比較注重生活質(zhì)量,平均儲蓄額比低學(xué)歷家庭低3700元,這是在年收入相同的情況下作出的比較,或者說是在清除了家庭年收入影響后的差值,反映了學(xué)歷高低對儲蓄的真實差異;3)根據(jù)實際數(shù)據(jù)可算得13戶高學(xué)歷家庭的平均年收入為3.8385萬元,平均年儲蓄增加額為3009.31元,而低學(xué)歷家庭的平均年收入為2121(0):79763826 ,(1)116763826 ,:xyxxyx 結(jié)果表明結(jié)果表明

6、3.4071萬元,平均年儲蓄增加額為5059.36元,二者之間的差距為2050.05元,與回歸法算出的數(shù)值為3700元并不相等,直接用樣本計算的差值2050.05元是包含家庭年收入影響在內(nèi)的差值,是虛假的差值. 以上分析表明,對某些問題的討論僅依靠平均值是不夠的,很可能得到虛假的數(shù)值,只有通過對數(shù)據(jù)的深入分析,才能得到正確結(jié)果. 復(fù)雜情況 某些場合定性自變量可能取多類值,例如某商廈策劃營銷方案,需要考慮銷售額的季節(jié)性影響,季節(jié)因素分為春、夏、秋、冬四種情況.為了用定性變量反映春、夏、秋、冬四季,初步設(shè)想引入如下四個01型自變量. 123123123123123123,1,1,1,0,0,0,(

7、 ,)(1,0,0),( ,)(0,1,0),( ,)(0,0,1),( ,)(0,0,0)x x xxxxx x xx x xx x xx x x比如保留春季夏季秋季即其余其余其余那么表示春季表示夏季表示秋季表示冬季.例某公司調(diào)查本公司專業(yè)技術(shù)人員的薪水 受學(xué)歷程度與在本公司工作年限的影響 121212(,)(1,0),(,)(0,1),(,)(0,0)D DD DD D那么表示該員工具有本科學(xué)歷表示該員工具有研究生學(xué)歷表示該員工具有大?;蛞韵聦W(xué)歷. 在這一問題中假設(shè)每增加一年工齡,薪水的增加額是固定的,對剛進(jìn)公司的員工,不同文化層次工資間的差額是固定的。 11221222122111120

8、0498.401741.00356.907040.53051.0019971,0,1,11200498.401741.007040.5 3051.00(11200 1741.007040.53051.00)498.4016930.5yxDDxD xD xDDxyxx代入一個具有本科學(xué)歷并且有著高級職稱的員工即意味有著回歸方程即1498.40 x比較本科畢業(yè)生是否具有高級職稱的工資差異:1122122212211116930.511200498.401741.00356.907040.53051.0019971,0,0,11200498.401741.00(11200 1741.00)49129

9、413988.4012941498.4,90.5yxDDxD xD xDDxyxxx一個具有本科學(xué)歷但沒有高級職稱的員代入回歸方程即工即意味著有可以看398,9.50到在工齡相同的情況下本科生具有高級職稱的員工平均比不具有高級職稱的員工年收入增加元.2 自變量中含有定性變量的回歸模型的應(yīng)用 一分段回歸 在實際問題中,某些變量在不同的影響因素范圍內(nèi)變化趨勢截然不同,例如經(jīng)濟(jì)問題涉及到經(jīng)濟(jì)政策有較大調(diào)整時,調(diào)整前與調(diào)整后的變化幅度會有很大的不同,可以考慮用多段回歸方法來處理.例2研究某企業(yè)生產(chǎn)批量x與單位成本 y(美元)的關(guān)系。 樣本數(shù)據(jù)如下:生產(chǎn)批量x與單位成本 y(美元)的散點圖3004005

10、00600700800 x11.002.003.004.005.00y500pxxy1102500樣本數(shù)據(jù)如下:令Dxx)500(12,作二元回歸 Model SummaryModel Summary.985a.969.957.24494Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), x2, x1a. ANOVAANOVAb b9.48624.74379.059.000a.3005.0609.7867RegressionResidualTotalModel1Sum ofSquares

11、dfMean SquareFSig.Predictors: (Constant), x2, x1a. Dependent Variable: yb. CoefficientsCoefficientsa a5.895.6049.757.000-.004.001-.611-2.650.045-.004.002-.388-1.685.153(Constant)x1x2Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: ya. 沒有通過顯著性檢驗,還不能認(rèn)為本例數(shù)

12、據(jù)適合于折線回歸。 Model SummaryModel Summary.976a.952.944.27998Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), x1a. ANOVAANOVAb b9.31619.316118.839.000a.4706.0789.7867RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), x1a. Dependent Variable:

13、yb. CoefficientsCoefficientsa a6.795.32420.963.000-.006.001-.976-10.901.000(Constant)x1Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: ya. 二回歸系數(shù)相等的檢驗 CoefficientsCoefficientsa a-8763.9361270.878-6.896.0004057.151359.284.97711.292.000-776.9392514.459-.1

14、11-.309.760-787.564663.367-.443-1.187.247(Constant)x1x2x3Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: ya. 223230110213123t,12()()0,0,iiiiiixxxyxyxy檢驗顯示的回歸系數(shù)也沒有通過檢驗 并且比的顯著性更低 那么是否應(yīng)該首先剔除而保留 ?回答是否定的.因為這樣做與經(jīng)濟(jì)意義不符合.模型模型時 表明兩個回歸方程的常數(shù)項相等 而則表明兩個回歸方程的斜率相等 經(jīng)濟(jì)

15、學(xué)家首先關(guān)心斜率是否相等 其次才是常數(shù)項.通常認(rèn)為 回歸常數(shù)項是在自變量為零時,的平均值 但在本例中沒有這個現(xiàn)實意義.CoefficientsCoefficientsa a-7728.0981904.769-4.057.0003264.453513.188.7866.361.000-7976.8091093.445-7.295.0003826.129304.591.92112.562.000-3700.330513.445-.529-7.207.000(Constant)x1(Constant)x1x2Model12BStd. ErrorUnstandardizedCoefficientsBe

16、taStandardizedCoefficientstSig.Dependent Variable: ya. 例:研究人的年齡與血壓之間的關(guān)系 p29個不同年齡的女性測得血壓數(shù)據(jù)如下: 40個不同年齡的男性測得血壓數(shù)據(jù)如下:女性年齡與血壓的散點圖:10203040506070wa110120130140150160170180wb男性血壓與年齡的散點圖:10203040506070ma120130140150160170180190mbModel SummaryModel Summary.881a.776.7668.946Model1RR SquareAdjustedR SquareStd.

17、Error ofthe EstimatePredictors: (Constant), x1x2, x2, x1a. ANOVAANOVAb b18010.32936003.44375.022.000a5201.4396580.02223211.76868RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), x1x2, x2, x1a. Dependent Variable: bb. CoefficientsCoefficientsa a110.0394.73623.234.000

18、-12.9617.012-.349-1.849.069.961.096.7859.980.000-.012.145-.016-.083.934(Constant)x1x2x1x2Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: ba. Model SummaryModel Summary.881a.776.7698.878Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors:

19、 (Constant), x2, x1a. ANOVAANOVAb b18009.77929004.890114.249.000a5201.9896678.81823211.76868RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), x2, x1a. Dependent Variable: bb. 12,xx剔除后做二元回歸 結(jié)果顯示如下:CoefficientsCoefficientsa a110.2873.63830.313.000-13.5132.169-.364-6.2

20、29.000.956.072.78013.366.000(Constant)x1x2Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: ba. 3 因變量是定性變量的回歸模型 LogisticProbitLogistic兩類值情形回歸方程的意義多類值情形2.因變量含定性回歸產(chǎn)生的問題變量的回歸問題回歸模型回歸模型改進(jìn)模型多類別回歸順序數(shù)據(jù)的回歸 在很多實際問題中,所研究的因變量往往只有兩個可能結(jié)果,失敗或成功,這樣的因變量也可用虛擬變量來表示,y 的取值只

21、取0或1. 例如,在高中畢業(yè)后繼續(xù)進(jìn)入大學(xué)學(xué)習(xí)的可能性影響因素的分析中,y 因變量只有兩個結(jié)果,y=1表示升入大學(xué),y=0表示沒有升入大學(xué). 再如,在一次住房展銷會上,與房產(chǎn)商簽訂初步購房意向書的顧客中,在隨后的3個月內(nèi),只有一部分顧客確實購買了房屋. 確實購買了房屋的顧客記為1,沒有購買房屋的顧客記為0. 一 定性因變量的回歸方程意義二 定性因變量回歸的特殊問題 4 Logistic回歸模型 0 1,0,1,Logistic,0,1,iy針對型因變量產(chǎn)生的問題 我們對回歸模型應(yīng)該做兩個方面的改進(jìn).第一 回歸函數(shù)改用限制在區(qū)間內(nèi)的連續(xù)函數(shù) 而不再適用直線回歸方程.常用的有函數(shù)與正態(tài)分布函數(shù);第

22、二 因變量本身只取兩個離散值不適合直接作為回歸模型中的因變量.01(),0 1,()1iiiiiiiiiiiiE yxxyyE yxyyy因為表示在自變量為 的條件下因變量的平均值 而又是服從分布 故就是取定自變量時因變量等于 的比例.這就提示我們可以用等于1的比例代替本身作為因變量.0101Logistic( )1Logistic1(1),1.iixxxixiiiiiief xeePePP yxPxy函數(shù)的形式為:回歸模型為:其中在實際問題中為自變量取時因變量等于 的比例010101010101( )ln,111Logistic(1),1ln,1,Logistic1iiiiixxxxiiix

23、iiiiixixPeyyyf xexeyyeP yxPePxPPxePe對照下列函數(shù)變換可知建模步驟:建立模型則這是一元線性回歸模型 求出回歸方程為則回歸方程即為一分組數(shù)據(jù)的Logistic回歸方程 當(dāng)樣本量較大,采用分組數(shù)據(jù)建立模型時,可直接將Logistic回歸轉(zhuǎn)化為線性模型進(jìn)行擬合. 例在一次住房展銷會上,與房產(chǎn)商簽訂初步購房意向書的共有n=313名顧客,在隨后的3個月的時間內(nèi),只有一部分顧客確實購買了房屋。購買房屋的顧客記為1,沒有購買房屋的顧客記為0,以家庭年收入為自變量,建立Logistic回歸模型.Logistic回歸方程為: Model SummaryModel Summary

24、.961a.924.913.1305729205Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), xa. ANOVAANOVAb b1.45611.45685.421.000a.1197.0171.5768RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), xa. Dependent Variable: lnpib. CoefficientsCoefficientsa a

25、-.886.102-8.653.000.156.017.9619.242.000(Constant)xModel1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: lnpia. Model SummaryModel Summary.939a.881.864.3862236714Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), xa. ANOVAANOVAb,

26、cb,c7.75417.75451.982.000a1.0447.1498.7988RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), xa. Dependent Variable: lnpib. Weighted Least Squares Regression - Weighted by wic. CoefficientsCoefficientsa,ba,b-.849.114-7.474.000.149.021.9397.210.000(Constant)xModel1BSt

27、d. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: lnpia. Weighted Least Squares Regression - Weighted by wib. 在醫(yī)學(xué)研究中冠心病癥狀與年齡關(guān)系是一研究課題,現(xiàn)給出100個人的年齡與冠心病癥狀的數(shù)據(jù),將100個人的數(shù)據(jù)進(jìn)行分組,得下表: 設(shè)y為冠心病癥狀 個人沒有冠心病癥狀。,第個人具有冠心病癥狀;,第iiyi01 自 變 量x為 年 齡 , 共 分 為8組 , 這 里)1(iiixxyPP, 表示第 i 個年齡組

28、合冠心病的發(fā)病率。 pi關(guān)于年齡組的折線圖如下: 2030405060age0.100.200.300.400.500.600.700.80pi曲線大體呈“s”型這里年齡取了分組的中位數(shù),每組的自變量觀測值個數(shù)視為1來建模.Model SummaryModel Summary.994a.989.987.05688502Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), agea. ANOVAANOVAb,cb,c1.73611.736536.633.000a.0196.0031.7567

29、RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), agea. Dependent Variable: lnpib. Weighted Least Squares Regression - Weighted by wic. CoefficientsCoefficientsa,ba,b-5.244.224-23.444.000.110.005.99423.165.000(Constant)ageModel1BStd. ErrorUnstandardizedCoefficientsB

30、etaStandardizedCoefficientstSig.Dependent Variable: lnpia. Weighted Least Squares Regression - Weighted by wib. 分組數(shù)據(jù)的Logistic回歸只適用于大樣本分組數(shù)據(jù),對小樣本未分組數(shù)據(jù)不適用,并且樣本量為分組數(shù)c,往往較小,影響擬合的精度,可以直接用極大似然估計擬合Logistic回歸模型. 二未分組的Logistic回歸模型 在一次關(guān)于公共交通的社會調(diào)查中,一個調(diào)查項目是“是乘坐公共汽車上下班,還是騎自行車上下班”. 因變量y1表示主要乘坐公共汽車上下班,y0表示主要騎自行車上下班

31、. 自變量x1是年齡,作為連續(xù)型變量;x2是月收入;x3是性別;x31表示男性,x30表示女性.調(diào)查對象為工薪族群體,數(shù)據(jù)見下頁,建立y與自變量間的logistic回歸.Spss軟件提供了求解功能22Variable in the EquationVariableBS.E.WalddfSig.sex2.50161.15784.668910.0307age0.08220.05212.485310.1149x20.00150.00190.661310.4161Constant3.65472.09113.054510.0805BWald()()Wald.S.E.()jjD其中是檢驗313Variab

32、le in the EquationVariableBS.E.WalddfSig.sex2.22391.04764.505910.0338age0.10230.04584.985610.0256Constant2.62851.55372.862010.0907exp( 2.62852.22390.1023 )1 exp( 2.62852.22390.xxPx最終回歸方程為11023 )x2,y,x剔除用 對性別與年齡兩個自變量作回歸得到性別和年齡兩個自變量都是顯著的三、Probit回歸模型10111011Probit,Logistic,0 1,(),( ).iipipiiiipipixxPPx

33、x回歸稱為單位概率回歸 與回歸相似也是擬合型因變量回歸的方法 其回歸函數(shù)為用樣本比例代替概率得樣本回歸模型例 使用購房數(shù)據(jù)建立Probit回歸模型1Probit/()11.52580.3200.46822.532130.4060.23733.558260.4480.13044.552220.4230.19455.543200.4650.08866.539220.5640.16177.528160.5710.18088.521120.57iiiiiiinmpmnxpp 變換簽訂意向?qū)嶋H購房實際購房比例序家庭年書人數(shù)人數(shù)號收入10.18099.515100.6670.43111(),( )0.55

34、20.097 ,( 0.5520.097 ),8,( 0.5520.097 8)(0.224)0.589,Logistic.ipxpxpxxp 以為因變量 以家庭年收入為自變量 做普通最小二乘線性回歸 得回歸方程或者等價表示為對與用回歸計算的預(yù)測值很接近1SPSSProbit,Probit,25110.8( )0.531770.09354 ,px 軟件提供了回歸功能 用于對分組數(shù)據(jù)擬合回歸.采用的是極大似然估計 用數(shù)值計算方法得到相應(yīng)結(jié)果.(詳見課本頁)由輸出結(jié)果得回歸方程與用最小二乘法得到的回歸方程很接近.01011:()(): (), ()()lnLogistic1()( )Probit,

35、YYYYE Y xxgx gPgPgP 線性回歸函數(shù)以一元為例線性回歸函數(shù)稱為連接函數(shù)回歸模型;回歸模型;不同的連接函數(shù)可以得到不同的回歸模型統(tǒng)稱廣義線總結(jié):廣義性模型.5 多類別Logistic回歸 120110110,1,2, ,.(,;),1,2, ,Logisticexp(),exp()exp()1,2,;1,2,iiipijjjipjipijpipkpkipykkxxxyiniyjxxxxin j當(dāng)定性因變量取個類別時 記為這里的數(shù)字是名義代號 并沒有大小順序的含義 對于樣本數(shù)據(jù)多類別回歸模型第 組樣本的因變量取第個類別的概率為k01101111011,1exp()()exp()()

36、exp()()ijjjiikkipcc xcc xcc x同上式中各回歸系數(shù)不是唯一確定的 每個回歸系數(shù)一個常數(shù)后的數(shù)值.以時加減保持為例不變0111011111011101101111011exp()(1)exp()(1)exp()(1)exp()()exp()()exp()()jjiiiikkiijjiikkixcxxcxxcxcc xcc xcc x10111011111011101101111011011011)11(1(1exp()(1)exp()(1)exp()(1)exp()()exp()()exp()()exp()exp()ijjiiiikkiijjiikkijxjiiccxc

37、xxcxxcxcc xcc xcc xxxee11)1(1)01exp()iixckkixxe10111011111011101101111011011011)11(1(1exp()(1)exp()(1)exp()(1)exp()()exp()()exp()()exp()exp()ijjiiiikkiijjiikkijxjiiccxcxxcxxcxcc xcc xcc xxxee1101101)(110111111)0exp()exp()exp()exp()iikkijjiijikkxcxiexxxx0110110220,exp()0,exp(),1 exp()exp()1,2,;1,2,0,pipjjipjipijpipkpkipxxxxxin jk為此 把分母中的第一項里的系數(shù)都設(shè)為得到回歸函數(shù)的表達(dá)式該表達(dá)式中每個回歸系數(shù)都是唯一確定的 第一個類別的回歸系數(shù)都取其它類別的回歸系數(shù)數(shù)值的大小都以第一個類別為參照.102200212122021212001102121

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論