9含定性變量的回歸模型_第1頁
9含定性變量的回歸模型_第2頁
9含定性變量的回歸模型_第3頁
9含定性變量的回歸模型_第4頁
9含定性變量的回歸模型_第5頁
已閱讀5頁,還剩77頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1第第9章章 含定性變量的回歸模型含定性變量的回歸模型信計(jì)學(xué)院統(tǒng)計(jì)系信計(jì)學(xué)院統(tǒng)計(jì)系 沈菊紅沈菊紅2變量的類型變量的類型間隔尺度間隔尺度(數(shù)值型變量數(shù)值型變量)有序尺度有序尺度(有次序關(guān)系有次序關(guān)系)名義尺度名義尺度(定性變量定性變量)(定量變量定量變量)如身高、重量等連續(xù)的量如身高、重量等連續(xù)的量如某產(chǎn)品分上、中、下三等如某產(chǎn)品分上、中、下三等如醫(yī)學(xué)化驗(yàn)中的陰性、陽性如醫(yī)學(xué)化驗(yàn)中的陰性、陽性3對(duì)定性變量數(shù)量化對(duì)定性變量數(shù)量化:只?。褐蝗?和和1兩個(gè)值的變量稱兩個(gè)值的變量稱為虛擬變量。為虛擬變量。4虛擬變量的回歸虛擬變量的回歸9.1 含有一個(gè)虛擬自變量的回歸含有一個(gè)虛擬自變量的回歸9.2 用虛擬

2、自變量回歸解決方差分析問題用虛擬自變量回歸解決方差分析問題9.3 因變量是定性變量的回歸模型因變量是定性變量的回歸模型9.4 logistic回歸模型回歸模型5含有一個(gè)虛擬自變量的回歸含有一個(gè)虛擬自變量的回歸6虛擬變量虛擬變量(dummy variable)1.用數(shù)字代碼表示的定性變量用數(shù)字代碼表示的定性變量2.虛擬變量可有不同的水平虛擬變量可有不同的水平n只有兩個(gè)水平的虛擬變量只有兩個(gè)水平的虛擬變量w比如,性別比如,性別(男,女男,女) n有兩個(gè)以上水平的虛擬變量有兩個(gè)以上水平的虛擬變量w貸款企業(yè)的類型貸款企業(yè)的類型(家電,醫(yī)藥,其他家電,醫(yī)藥,其他) 3.虛擬變量的取值為虛擬變量的取值為0

3、,17虛擬自變量的回歸虛擬自變量的回歸1.回歸模型中使用虛擬自變量時(shí),稱為回歸模型中使用虛擬自變量時(shí),稱為虛擬自變虛擬自變量量的回歸的回歸2.當(dāng)虛擬自變量只有當(dāng)虛擬自變量只有兩個(gè)水平兩個(gè)水平時(shí),可在回歸中引時(shí),可在回歸中引入入一個(gè)虛擬變量一個(gè)虛擬變量n比如,性別比如,性別(男,女男,女) 3.一般而言,如果定性自變量有一般而言,如果定性自變量有k個(gè)水平,需要在個(gè)水平,需要在回歸中模型中引進(jìn)回歸中模型中引進(jìn)k-1個(gè)虛擬變量個(gè)虛擬變量8虛擬自變量的回歸虛擬自變量的回歸 (例題分析例題分析)9虛擬自變量的回歸虛擬自變量的回歸 (例題分析例題分析)男 女10coefficientsa66.8754.5

4、5814.673.00014.8756.445.5252.308.037(constant)xmodel1bstd. errorunstandardizedcoefficientsbetastandardizedcoefficientstsig.dependent variable: ya. 回歸方程為回歸方程為66.875 14.875yx11虛擬自變量的回歸虛擬自變量的回歸 (例題分析例題分析)引進(jìn)虛擬變量時(shí),回歸方程可寫為:引進(jìn)虛擬變量時(shí),回歸方程可寫為:e(y) = 0+ 1x男男(x=0):e(y) = 0男學(xué)生考試成績(jī)的期望值男學(xué)生考試成績(jī)的期望值女女(x=1):e(y) = 0+

5、 1女學(xué)生考試成績(jī)的期望值女學(xué)生考試成績(jī)的期望值注意:當(dāng)指定虛擬變量注意:當(dāng)指定虛擬變量0,1時(shí)時(shí) 0總是代表與虛擬變量值總是代表與虛擬變量值0所對(duì)應(yīng)的那個(gè)分類變量水平的所對(duì)應(yīng)的那個(gè)分類變量水平的平均值平均值 1總是代表與虛擬變量值總是代表與虛擬變量值1所對(duì)應(yīng)的那個(gè)分類變量水平的所對(duì)應(yīng)的那個(gè)分類變量水平的平均值與虛擬變量值平均值與虛擬變量值0所對(duì)應(yīng)的那個(gè)分類變量水平的平所對(duì)應(yīng)的那個(gè)分類變量水平的平均值的差值,即均值的差值,即 平均值的差值平均值的差值=( 0+ 1) - 0= 1 12虛擬自變量的回歸虛擬自變量的回歸(例題分析例題分析)13虛擬自變量的回歸虛擬自變量的回歸 (例題分析例題分析)

6、引進(jìn)虛擬變量時(shí),回歸方程可寫為:引進(jìn)虛擬變量時(shí),回歸方程可寫為: e(y) = 0+ 1x1+ 2x2女女( x2=0):e(y|女性女性) = 0 + 1x1男男(x2=1):e(y|男性男性) =( 0 + 2 ) + 1x1 0的含義表示:女性職工的期望月工資收入的含義表示:女性職工的期望月工資收入 ( 0+ 2)的含義表示:男性職工的期望月工資收入的含義表示:男性職工的期望月工資收入 1含義表示:工作年限每增加含義表示:工作年限每增加1年,男性或女性工資年,男性或女性工資的平均增加值的平均增加值 2含義表示:男性職工的期望月工資收入與女性職含義表示:男性職工的期望月工資收入與女性職工的

7、期望月工資收入之間的差值工的期望月工資收入之間的差值 ( 0+ 2) - 0= 214coefficientsa2147.273604.9773.549.008304.132100.412.7313.029.016(constant)x1model1bstd. errorunstandardizedcoefficientsbetastandardizedcoefficientstsig.dependent variable: ya. model summary.731a.534.476781.022model1rr squareadjustedr squarestd. error ofthe

8、estimatepredictors: (constant), x1a. anovab559603315596033.0589.174.016a48799678609995.8681.0e+079regressionresidualtotalmodel1sum ofsquaresdfmean squarefsig.predictors: (constant), x1a. dependent variable: yb. 15model summary.927a.859.819459.048model1rr squareadjustedr squarestd. error ofthe estima

9、tepredictors: (constant), x2, x1a. anovab900092324500461.30021.357.001a14750777210725.3431.0e+079regressionresidualtotalmodel1sum ofsquaresdfmean squarefsig.predictors: (constant), x2, x1a. dependent variable: yb. coefficientsa930.495466.9741.993.087387.61662.565.9316.195.0001262.693314.127.6044.020

10、.005(constant)x1x2model1bstd. errorunstandardizedcoefficientsbetastandardizedcoefficientstsig.dependent variable: ya. 16例題分析例題分析【例例9.1】某經(jīng)濟(jì)學(xué)家想調(diào)查文化程度對(duì)家庭儲(chǔ)蓄的某經(jīng)濟(jì)學(xué)家想調(diào)查文化程度對(duì)家庭儲(chǔ)蓄的影響,在一個(gè)中等收入的樣本框中,隨機(jī)調(diào)查了影響,在一個(gè)中等收入的樣本框中,隨機(jī)調(diào)查了13戶高等學(xué)歷家庭與戶高等學(xué)歷家庭與14戶中低學(xué)歷的家庭。因變量戶中低學(xué)歷的家庭。因變量y為為上一年家庭儲(chǔ)蓄增加額,自變量上一年家庭儲(chǔ)蓄增加額,自變量 為上一年家庭總收為上一

11、年家庭總收入,自變量入,自變量 表示家庭學(xué)歷。高學(xué)歷家庭表示家庭學(xué)歷。高學(xué)歷家庭 ,低,低學(xué)歷家庭學(xué)歷家庭 ,調(diào)查數(shù)據(jù)見下表。,調(diào)查數(shù)據(jù)見下表。1x2x21x 20 x 17序號(hào)序號(hào) (元元) (萬元萬元)1234567891011121314152353463654686588671085123612381345236523653256325632562.33.22.83.52.63.22.63.42.22.82.33.74.02.93.801010101010110158822023711246131330188696797230915421153711374034552372104732

12、291011851326213517846725851985207415171412y1x2xieide18序號(hào)序號(hào) (元元) (萬元萬元)161718192021222324252627326535673658458864369047798589509865986610235101404.64.23.73.54.85.04.23.94.84.64.84.211101100000026588261178827252159310820055242431542047402324166928911505453200239471924257822944157y1x2xieide19model summ

13、aryb.938a.879.8691288.563model1rr squareadjustedr squarestd. error ofthe estimatepredictors: (constant), x2, x1a. dependent variable: yb. anovab2.9e+08214519733187.448.000a4.0e+07241660394.2983.3e+0826regressionresidualtotalmodel1sum ofsquaresdfmean squarefsig.predictors: (constant), x2, x1a. depend

14、ent variable: yb. 建立建立 對(duì)對(duì) 的線性回歸,并計(jì)算殘差的線性回歸,并計(jì)算殘差iey12,x x20coefficientsa-7976.8751093.346-7.296.0003826.148304.564.92112.563.000-3701.031513.399-.529-7.209.000(constant)x1x2model1bstd. errorunstandardizedcoefficientsbetastandardizedcoefficientstsig.dependent variable: ya. 兩個(gè)自變量?jī)蓚€(gè)自變量 與與 的系數(shù)都是顯著的,復(fù)決定系

15、數(shù)的系數(shù)都是顯著的,復(fù)決定系數(shù) ,回歸方程為,回歸方程為1x2x20.879r 12797638263701yxx 該結(jié)果表明,中等收入的家庭每增加該結(jié)果表明,中等收入的家庭每增加1萬元收入,平均萬元收入,平均拿出拿出3826元作為儲(chǔ)蓄。高學(xué)歷家庭每年的平均儲(chǔ)蓄額元作為儲(chǔ)蓄。高學(xué)歷家庭每年的平均儲(chǔ)蓄額少于低學(xué)歷的家庭,平均少少于低學(xué)歷的家庭,平均少3701元。元。21如果不引入學(xué)歷定性變量如果不引入學(xué)歷定性變量 ,用,用 對(duì)家庭年收入對(duì)家庭年收入 作作一元線性回歸,得一元線性回歸,得 說明擬合效果不好。說明擬合效果不好。 對(duì)對(duì) 的一元回歸殘差的一元回歸殘差 見表中。見表中。2x1x20.618

16、,r yy1xidemodel summaryb.786a.618.6032246.211model1rr squareadjustedr squarestd. error ofthe estimatepredictors: (constant), x1a. dependent variable: yb. coefficientsa-7728.1171904.962-4.057.0003264.366513.239.7866.360.000(constant)x1model1bstd. errorunstandardizedcoefficientsbetastandardizedcoeffic

17、ientstsig.dependent variable: ya. 22coefficientsa5059.357928.7415.448.000-2050.7421338.458-.293-1.532.138(constant)x2model1bstd. errorunstandardizedcoefficientsbetastandardizedcoefficientstsig.dependent variable: ya. 如果不考慮家庭年收入如果不考慮家庭年收入 ,13戶高學(xué)歷家庭的平均年戶高學(xué)歷家庭的平均年儲(chǔ)蓄增加額為儲(chǔ)蓄增加額為3008.62元,元,14戶低學(xué)歷家庭的平均年戶低學(xué)歷

18、家庭的平均年儲(chǔ)蓄增加額為儲(chǔ)蓄增加額為5059.36元,高學(xué)歷家庭每年的儲(chǔ)蓄額元,高學(xué)歷家庭每年的儲(chǔ)蓄額比低學(xué)歷的家庭平均少比低學(xué)歷的家庭平均少5059.363008.622050.74元,元,而用前面的回歸法算出的值是而用前面的回歸法算出的值是3701元,兩者并不相等。元,兩者并不相等。3701元是在假設(shè)兩者的家庭年收入相等的基礎(chǔ)上的儲(chǔ)元是在假設(shè)兩者的家庭年收入相等的基礎(chǔ)上的儲(chǔ)蓄差值,反映了學(xué)歷高低對(duì)儲(chǔ)蓄額的真實(shí)差異。蓄差值,反映了學(xué)歷高低對(duì)儲(chǔ)蓄額的真實(shí)差異。(調(diào)整后的調(diào)整后的 )1x20.049r 23說明:雖然虛擬變量取某一數(shù)值,但這一數(shù)值說明:雖然虛擬變量取某一數(shù)值,但這一數(shù)值沒有任何數(shù)

19、量大小的意義,它僅僅用來說明變沒有任何數(shù)量大小的意義,它僅僅用來說明變量的量的性質(zhì)或?qū)傩浴P再|(zhì)或?qū)傩浴?4自變量中含有定性變量的回歸模型的應(yīng)用自變量中含有定性變量的回歸模型的應(yīng)用25一一.回歸系數(shù)相等的檢驗(yàn)回歸系數(shù)相等的檢驗(yàn) 【例例9.2】在例在例9.1中引入中引入01型虛擬自變量的方法型虛擬自變量的方法是假定儲(chǔ)蓄增加額是假定儲(chǔ)蓄增加額y對(duì)家庭收入的回歸斜率對(duì)家庭收入的回歸斜率 與與家庭家庭年收入年收入 無關(guān),無關(guān), 只影響只影響 。該假定是否合理,需作。該假定是否合理,需作統(tǒng)計(jì)檢驗(yàn)。檢驗(yàn)方法是引入含交互效應(yīng)的回歸模型統(tǒng)計(jì)檢驗(yàn)。檢驗(yàn)方法是引入含交互效應(yīng)的回歸模型11x1x001122312ii

20、iiiiyxxx x(9.1)回歸模型回歸模型(9.1)可以分解為如下的兩個(gè)線性回歸模型可以分解為如下的兩個(gè)線性回歸模型 高學(xué)歷家庭高學(xué)歷家庭21,x 02131()()iiiyx低學(xué)歷家庭低學(xué)歷家庭20,x 011iiiyx(9.2)(9.3)26要檢驗(yàn)兩個(gè)回歸方程的回歸系數(shù)相等,就是檢驗(yàn)要檢驗(yàn)兩個(gè)回歸方程的回歸系數(shù)相等,就是檢驗(yàn)03:0h當(dāng)拒絕當(dāng)拒絕 時(shí),認(rèn)為時(shí),認(rèn)為 ,這時(shí)高學(xué)歷與低學(xué)歷家,這時(shí)高學(xué)歷與低學(xué)歷家庭的儲(chǔ)蓄回歸模型被拆分為兩個(gè)不同的模型庭的儲(chǔ)蓄回歸模型被拆分為兩個(gè)不同的模型(9.2和和(9.3)式;當(dāng)接受式;當(dāng)接受 時(shí),認(rèn)為時(shí),認(rèn)為 ,此時(shí)高學(xué)歷,此時(shí)高學(xué)歷與低學(xué)歷家庭的儲(chǔ)蓄

21、回歸模型是與低學(xué)歷家庭的儲(chǔ)蓄回歸模型是0h30300h01122iiiiyxx(9.4)擬合模型擬合模型(9.1),回歸系數(shù)檢驗(yàn)如下表,回歸系數(shù)檢驗(yàn)如下表27coefficientsa-8763.9361270.763-6.897.0004057.151359.252.97711.293.000-777.8852514.231-.111-.309.760-787.498663.307-.443-1.187.247(constant)x1x2x3model1bstd. errorunstandardizedcoefficientsbetastandardizedcoefficientstsig.

22、dependent variable: ya. 從輸出結(jié)果看到,應(yīng)該接受從輸出結(jié)果看到,應(yīng)該接受 。 問題:是否首先剔除問題:是否首先剔除 ?03:0h2x否,因?yàn)榕c經(jīng)濟(jì)意義不符,對(duì)模型否,因?yàn)榕c經(jīng)濟(jì)意義不符,對(duì)模型(9.2)與與(9.3),當(dāng)當(dāng) 時(shí),表明兩個(gè)回歸方程的常數(shù)項(xiàng)相等,時(shí),表明兩個(gè)回歸方程的常數(shù)項(xiàng)相等,當(dāng)當(dāng) 時(shí),表明兩個(gè)回歸方程的斜率相等。時(shí),表明兩個(gè)回歸方程的斜率相等。020328二二.用虛擬自變量回歸用虛擬自變量回歸解決方差分析問題解決方差分析問題29設(shè)設(shè) 是正態(tài)總體是正態(tài)總體 的樣本,原假設(shè)為的樣本,原假設(shè)為記記 則有則有 進(jìn)而有進(jìn)而有,1,2,ijjyin 2(,)(1,2

23、, )jnjc 012:ch,ijijjy2(0,),ijn,1,;1,ijjijjyinjc記記 則上式改寫為則上式改寫為,1,;1,ijiijjyainjc11,cjjjjac引入虛擬自變量引入虛擬自變量 ,將,將(2)式表示為多元線性回歸式表示為多元線性回歸模型模型(2)ijx1122ijiicicijya xa xa x(1)30其中其中由于由于c個(gè)自變量個(gè)自變量 之和恒等于之和恒等于1,存在完全共,存在完全共線性。為此,剔除線性。為此,剔除 ,建立回歸模型,建立回歸模型 12,cx xxcx112211ijiicicijya xa xax(3)31(1)式回歸方程顯著性檢驗(yàn)的原假設(shè)為

24、式回歸方程顯著性檢驗(yàn)的原假設(shè)為0121:0chaaa由由 可知,可知,(1)式和式和(4)式的兩式的兩個(gè)原假設(shè)是等價(jià)的。作個(gè)原假設(shè)是等價(jià)的。作(4)式的顯著性式的顯著性f檢驗(yàn),該檢驗(yàn)檢驗(yàn),該檢驗(yàn)與單因素方差分析的與單因素方差分析的f檢驗(yàn)是等價(jià)的。檢驗(yàn)是等價(jià)的。稱自變量全是定性變量的回歸模型為方差分析模型;稱自變量全是定性變量的回歸模型為方差分析模型;如果模型中既包含數(shù)量變量,又包含定性變量,其如果模型中既包含數(shù)量變量,又包含定性變量,其中以定性自變量為主,稱這樣的模型為協(xié)方差模型。中以定性自變量為主,稱這樣的模型為協(xié)方差模型。(4)11cjjjjjac32方差分析的回歸方法方差分析的回歸方法

25、(例題分析例題分析)引進(jìn)虛擬變量建立回歸方程:e(y)=0+ 1x1+ 2x2+3x3用用excel進(jìn)行回歸進(jìn)行回歸 0家電制造業(yè)投訴次數(shù)的平均值 ( 0+ 1)零售業(yè)投訴次數(shù)的平均值 ( 0+ 2)旅游業(yè)投訴次數(shù)的平均值 ( 0+ 3)航空公司投訴次數(shù)的平均值 33使用虛擬變量需注意的問題使用虛擬變量需注意的問題n虛擬變量陷阱:若定性變量有虛擬變量陷阱:若定性變量有k個(gè)類別,個(gè)類別,則引入則引入k個(gè)虛擬變量將會(huì)產(chǎn)生個(gè)虛擬變量將會(huì)產(chǎn)生完全多重完全多重共線性問題共線性問題,避免方法:,避免方法:w只引入(只引入(k-1)個(gè)虛擬變量)個(gè)虛擬變量34自變量中含有定性變量的回歸模型的應(yīng)用自變量中含有定

26、性變量的回歸模型的應(yīng)用 三三.分段回歸分段回歸 【例例9.2】用分段回歸建立某工廠生產(chǎn)批量用分段回歸建立某工廠生產(chǎn)批量 與單位與單位成本成本 (美元美元)的回歸模型。的回歸模型。xy序號(hào)序號(hào)1 12.572.576506501501502 24.44.43403400 03 34.524.524004000 04 41.391.398008003003005 54.754.753003000 06 63.553.5557057070707 72.492.497207202202208 83.773.774804800 0y1()xx2x35x1900800700600500400300200y

27、5.04.54.03.53.02.52.01.51.0單位成本對(duì)批量的散點(diǎn)圖單位成本對(duì)批量的散點(diǎn)圖36假定回歸直線的斜率在假定回歸直線的斜率在 處改變,建立回歸處改變,建立回歸模型模型500px 012(500)iiiiiyxxd來擬合,其中來擬合,其中1,5000,500iiiidxdx (9.5)模型模型(9.5)實(shí)際上是一個(gè)二元線性回歸模型,記實(shí)際上是一個(gè)二元線性回歸模型,記12,(500)iiiixxxxd則有則有01122iiiiyxx(9.6)37(9.6)式可以分解為兩個(gè)線性回歸方程式可以分解為兩個(gè)線性回歸方程 當(dāng)當(dāng) 時(shí),時(shí),(9.6)式的回歸方程為式的回歸方程為1500 x 0

28、1 1( )e yx(9.7)當(dāng)當(dāng) 時(shí),時(shí),(9.6)式式的回歸方程的回歸方程為為1500 x 02121( )(500)()e yx(9.8)用普通最小二乘法擬合模型用普通最小二乘法擬合模型(9.6)38model summary.985a.969.957.24494model1rr squareadjustedr squarestd. error ofthe estimatepredictors: (constant), x2, x1a. anovab9.48624.74379.059.000a.3005.0609.7867regressionresidualtotalmodel1sum

29、ofsquaresdfmean squarefsig.predictors: (constant), x2, x1a. dependent variable: yb. 39coefficientsa5.895.6049.757.000-.004.001-.611-2.650.045-.004.002-.388-1.685.153(constant)x1x2model1bstd. errorunstandardizedcoefficientsbetastandardizedcoefficientstsig.dependent variable: ya. 用普通最小二乘法得回歸方程為用普通最小二乘

30、法得回歸方程為125.8950.0040.004yxx對(duì)回歸系數(shù)對(duì)回歸系數(shù) 作顯著性檢驗(yàn),不能認(rèn)為本數(shù)據(jù)適作顯著性檢驗(yàn),不能認(rèn)為本數(shù)據(jù)適合于折線回歸擬合。合于折線回歸擬合。此模型說明生產(chǎn)批量小于此模型說明生產(chǎn)批量小于500500時(shí),每增加時(shí),每增加1 1個(gè)單位批量,單位個(gè)單位批量,單位成本降低成本降低0.0040.004美元;當(dāng)生產(chǎn)批量大于美元;當(dāng)生產(chǎn)批量大于500500時(shí),每增加時(shí),每增加1 1個(gè)單位個(gè)單位批量,單位成本降低批量,單位成本降低0.004+0.004=0.0080.004+0.004=0.008美元美元. .240model summary.976a.952.944.27998

31、model1rr squareadjustedr squarestd. error ofthe estimatepredictors: (constant), x1a. anovab9.31619.316118.839.000a.4706.0789.7867regressionresidualtotalmodel1sum ofsquaresdfmean squarefsig.predictors: (constant), x1a. dependent variable: yb. 作作 對(duì)對(duì) 的一元線性回歸。的一元線性回歸。yx41coefficientsa6.795.32420.963.000

32、-.006.001-.976-10.901.000(constant)x1model1bstd. errorunstandardizedcoefficientsbetastandardizedcoefficientstsig.dependent variable: ya. 6.7950.006yx一元回歸方程為一元回歸方程為42因變量是定性變量的回歸模型因變量是定性變量的回歸模型因變量只有兩個(gè)可能結(jié)果,可用虛擬變量來表示。因變量只有兩個(gè)可能結(jié)果,可用虛擬變量來表示。定性因變量的回歸方程的意義定性因變量的回歸方程的意義設(shè)因變量是只取設(shè)因變量是只取0,1兩個(gè)值的定性變量,對(duì)于線性兩個(gè)值的定性變量,

33、對(duì)于線性回歸模型回歸模型因變量均值因變量均值 的意義的意義由于由于 是是01型貝努利隨機(jī)變量,則得概率分布型貝努利隨機(jī)變量,則得概率分布01iiiyxiy(1),(0)1iiiip yp y 01()iie yx43得得()1()0(1)iiiie y即有即有01()iiie yx由回歸函數(shù)給定的因變量均值由回歸函數(shù)給定的因變量均值 是自是自變量水平為變量水平為 時(shí)時(shí) 的概率。的概率。2. 定性因變量回歸的特殊問題定性因變量回歸的特殊問題(1) 離散非正態(tài)誤差項(xiàng)離散非正態(tài)誤差項(xiàng) 誤差項(xiàng)誤差項(xiàng) 只取兩個(gè)值:只取兩個(gè)值:01()iie yxix1iy 01()iiiyx01011110當(dāng)時(shí),當(dāng)時(shí),

34、 iiiiiiiiyxyx442. 零均值異方差性零均值異方差性( )0ie0101( )()(1)()(1)iiiiiidd yxx3.回歸方程的限制回歸方程的限制 由于回歸方程代表概率分布,由于回歸方程代表概率分布,所以所以0()1iie y0-1型隨機(jī)變量的方差型隨機(jī)變量的方差45 logistic回歸分析回歸分析 (logistic regression analysis) 46logistic回歸分析回歸分析 在醫(yī)學(xué)研究中,在醫(yī)學(xué)研究中, 經(jīng)常要分析某種結(jié)果的產(chǎn)經(jīng)常要分析某種結(jié)果的產(chǎn)生與哪些因素有關(guān)。生與哪些因素有關(guān)。 例如:生存與死亡,例如:生存與死亡,發(fā)病與未發(fā)病,發(fā)病與未發(fā)病,

35、 陰性與陽性等結(jié)果的產(chǎn)生陰性與陽性等結(jié)果的產(chǎn)生可能與病人的年齡、性別、生活習(xí)慣、體可能與病人的年齡、性別、生活習(xí)慣、體質(zhì)、遺傳等許多因素有關(guān)。如何找出其中質(zhì)、遺傳等許多因素有關(guān)。如何找出其中哪些因素對(duì)結(jié)果的產(chǎn)生有顯著性影響呢?哪些因素對(duì)結(jié)果的產(chǎn)生有顯著性影響呢? logistic回歸分析能較好地解決這類問題?;貧w分析能較好地解決這類問題。47logistic回歸分析回歸分析一、一、 logistic回歸模型回歸模型48 1、 logistic回歸模型的構(gòu)造回歸模型的構(gòu)造若因變量若因變量 為連續(xù)型正態(tài)定量變量時(shí),可采用多元為連續(xù)型正態(tài)定量變量時(shí),可采用多元線性回歸分析線性回歸分析 與變量與變量

36、之間的關(guān)系:之間的關(guān)系: 現(xiàn)現(xiàn) 為發(fā)病或未發(fā)病,生存與死亡等定性分類變量,為發(fā)病或未發(fā)病,生存與死亡等定性分類變量,不能直接用上述模型進(jìn)行分析。不能直接用上述模型進(jìn)行分析。y l 能否用發(fā)病的概率能否用發(fā)病的概率p來直接代替來直接代替 呢?呢? y12,px xx01 122ppyxxxyy01 122pppxxx用用 的比例代替的比例代替 本身作為因變量;回歸函數(shù)是本身作為因變量;回歸函數(shù)是0,1區(qū)間的連續(xù)曲線。區(qū)間的連續(xù)曲線。1iy iy?49等式左邊等式左邊 變化范圍變化范圍p 發(fā)病概率 0 p11p 不發(fā)病概率 0 p1 p/1-p 比數(shù) (ratio) 0 p/1-p+ ln(p/1

37、-p) 對(duì)數(shù)比 (ratio) - ln(p/1-p) +502、 logistic 回歸模型為回歸模型為:l定義定義: 為為 logistic變變換換, logistic 回歸模型為回歸模型為: 01 1ln/1ppppxx 01 1logppit pxxlog ( )ln/1it ppp51logit變換變換經(jīng)數(shù)學(xué)變換可得經(jīng)數(shù)學(xué)變換可得: l exp表示指數(shù)函數(shù)。表示指數(shù)函數(shù)。01 101 1exp()1exp()ppppxxpxx52 logistic回歸模型是一種回歸模型是一種概率模型概率模型,它,它是以疾病,死亡等結(jié)果發(fā)生的概率為因變是以疾病,死亡等結(jié)果發(fā)生的概率為因變量,影響疾病發(fā)

38、生的因素為自變量建立回量,影響疾病發(fā)生的因素為自變量建立回歸模型。它特別適用于因變量為二項(xiàng),多歸模型。它特別適用于因變量為二項(xiàng),多項(xiàng)分類的資料。項(xiàng)分類的資料。 在臨床醫(yī)學(xué)中多用于鑒別診斷,評(píng)價(jià)在臨床醫(yī)學(xué)中多用于鑒別診斷,評(píng)價(jià)治療措施的好壞及分析與疾病愈后有關(guān)的治療措施的好壞及分析與疾病愈后有關(guān)的因素等。因素等。 53 spss軟件要求,對(duì)分類變量軟件要求,對(duì)分類變量y數(shù)量化,而且數(shù)量化,而且賦值為:賦值為: 發(fā)病發(fā)病 (陽性,死亡,治愈等陽性,死亡,治愈等) 未發(fā)病未發(fā)病 (陰性,生存,未治愈等陰性,生存,未治愈等) 注意注意 : ,即發(fā)病的概率。,即發(fā)病的概率。 l 軟件的要求軟件的要求10

39、y(1)pp y54回歸系數(shù)回歸系數(shù) 的意義的意義設(shè)只有一個(gè)自變量設(shè)只有一個(gè)自變量 ,logistic方程為方程為 表示非暴露,表示非暴露,1 表示暴露。表示暴露。 時(shí)的發(fā)病概率為時(shí)的發(fā)病概率為 ; 時(shí)的發(fā)病概率為時(shí)的發(fā)病概率為 。 則優(yōu)勢(shì)比則優(yōu)勢(shì)比(相對(duì)危險(xiǎn)度相對(duì)危險(xiǎn)度) i01ln/1ppx1p0p1100/(1)/(1)pporppx0 x 1x 0 x 55 01011ln()log (1)log (0)(1)(0)orit pit p01011ln()log ( )log (1)()(1)orit p xit p xxx56logistic 回歸系數(shù)的回歸系數(shù)的意義意義 1ore 表

40、示自變量每增加一個(gè)單位,其優(yōu)勢(shì)比的對(duì)數(shù)值的改變量, 亦即自變量每增加一個(gè)單位,其相對(duì)危險(xiǎn)度為 。1lnor01ln/1ppx1e157例如,吸煙與肺癌的關(guān)系的研究例如,吸煙與肺癌的關(guān)系的研究 令令 吸煙吸煙 肺癌肺癌 不吸煙不吸煙 非肺癌非肺癌若若求得求得: , 意思是:意思是: 吸煙的人得肺癌的危險(xiǎn)吸煙的人得肺癌的危險(xiǎn)性是不吸煙的性是不吸煙的2.71828倍。倍。 01ln/1ppx10y10 x11eor 58注意變量注意變量x的賦值與的賦值與or的關(guān)系的關(guān)系令令 0 吸煙吸煙 x = 1 不吸煙不吸煙 則求得則求得若求得若求得: 意思是:意思是: 不吸煙的人得肺癌的危險(xiǎn)不吸煙的人得肺癌的

41、危險(xiǎn)性是吸煙的性是吸煙的36.79%。 1ln()or, 11eor/1?1?or59二、二、logistic回歸的作用回歸的作用(1) 建建立立logistic回歸模型:回歸模型: (2) 預(yù)測(cè)預(yù)報(bào)預(yù)測(cè)預(yù)報(bào) 若已知若已知 數(shù)值大小時(shí),通過模型可數(shù)值大小時(shí),通過模型可 以預(yù)測(cè)發(fā)病、死亡等的概率;以預(yù)測(cè)發(fā)病、死亡等的概率;(3) 因素分析因素分析 尋找對(duì)發(fā)病、死亡等影響有顯著性的因素尋找對(duì)發(fā)病、死亡等影響有顯著性的因素。 01 1logppit pxx12,px xx60設(shè)研究問題中含有設(shè)研究問題中含有p個(gè)指標(biāo)變量個(gè)指標(biāo)變量 及及y;有;有 n個(gè)觀察對(duì)象,其數(shù)據(jù)結(jié)構(gòu)為個(gè)觀察對(duì)象,其數(shù)據(jù)結(jié)構(gòu)為:

42、編號(hào)編號(hào) 1 2 n y 的值要求數(shù)值化;的值要求數(shù)值化;y=1 為發(fā)病。為發(fā)病。三、數(shù)據(jù)結(jié)構(gòu)三、數(shù)據(jù)結(jié)構(gòu)12,px xx11121121222212,ppnnnpnxxxyxxxyxxxy12,pxxxy61四、四、logistic分析的具體任務(wù)分析的具體任務(wù):1) 采用極大似然估計(jì)或加權(quán)最小二乘估計(jì)采用極大似然估計(jì)或加權(quán)最小二乘估計(jì)確定方程中系數(shù)確定方程中系數(shù) 2) 采用采用( (剩余剩余) )卡方檢驗(yàn)對(duì)回歸方程進(jìn)行檢卡方檢驗(yàn)對(duì)回歸方程進(jìn)行檢驗(yàn);驗(yàn); 3) 采用采用wald檢驗(yàn)對(duì)方程中的每個(gè)系數(shù)檢驗(yàn)對(duì)方程中的每個(gè)系數(shù) 進(jìn)進(jìn)行顯著性檢驗(yàn)。行顯著性檢驗(yàn)。,1,2,iii62五、五、spss的實(shí)

43、現(xiàn)的實(shí)現(xiàn) 63例題講解例題講解【例例1】為評(píng)價(jià)某新療法的療效,某研究者隨機(jī)為評(píng)價(jià)某新療法的療效,某研究者隨機(jī)抽查了抽查了40名某病患者,治療后一定時(shí)間內(nèi)觀察名某病患者,治療后一定時(shí)間內(nèi)觀察其康復(fù)狀況。變其康復(fù)狀況。變量量y為康復(fù)狀況為康復(fù)狀況(y=0表示未康表示未康復(fù),復(fù),y=1表示康復(fù)表示康復(fù));變量;變量 為病情嚴(yán)重程度為病情嚴(yán)重程度( 表示不嚴(yán)重,表示不嚴(yán)重, 表示嚴(yán)重表示嚴(yán)重);變量;變量為療法為療法( 表示傳統(tǒng)療法,表示傳統(tǒng)療法, 表示新療表示新療法法),請(qǐng)作統(tǒng)計(jì)分析。,請(qǐng)作統(tǒng)計(jì)分析。 1x10 x 11x 2x21x 20 x 641 10 01 11 1 0 01 11 10 0

44、1 11 10 01 11 11 11 11 10 00 01 10 00 01 10 00 01 10 00 01 10 00 01 10 00 01 11 10 01 11 10 01 11 10 01 11 10 01 11 10 01 11 10 00 00 01 10 00 01 10 00 01 10 00 01 10 00 01 10 00 01 10 00 01 10 01 11 10 01 11 10 01 11 10 01 11 10 01 11 10 01 11 10 01 11 10 01 11 10 00 00 00 00 00 00 01 10 00 01 10 0

45、0 01 10 00 01 10 00 01 10 00 00 00 0序號(hào)序號(hào)yx1x2序號(hào)序號(hào)yx1x2序號(hào)序號(hào)yx1x21152921630317314183251933620347213582236923371024381125391226401327142865dependent variable encoding01original value未康復(fù)康復(fù)internal value上表為因變量賦值情況。上表為因變量賦值情況。binary logistic 過程默認(rèn)過程默認(rèn)以因變量較大取值的概率以因變量較大取值的概率p(y=1),而不是以,而不是以p(y=0)建立模型。建立模型。an

46、alyze regression binary logistic66classification tablea,b230100.0170.057.5observed未康復(fù)康復(fù)康復(fù)情況overall percentagestep 0未康復(fù)康復(fù)康復(fù)情況percentagecorrectpredictedconstant is included in the model.a. the cut value is .500b. 首先給出的是模型不含任何自變量,而只有常數(shù)項(xiàng)時(shí)首先給出的是模型不含任何自變量,而只有常數(shù)項(xiàng)時(shí)的輸出預(yù)測(cè)分類結(jié)果,此時(shí)所觀察對(duì)象都被預(yù)測(cè)為未的輸出預(yù)測(cè)分類結(jié)果,此時(shí)所觀察對(duì)象都被預(yù)

47、測(cè)為未康復(fù),總的預(yù)測(cè)準(zhǔn)確率為康復(fù),總的預(yù)測(cè)準(zhǔn)確率為57.5。模型擬合模型擬合block 0: beginning block67variables in the equation-.302.320.8931.345.739constantstep 0bs.e.walddfsig.exp(b)模型中只有常數(shù)項(xiàng)的檢驗(yàn)結(jié)果。模型中只有常數(shù)項(xiàng)的檢驗(yàn)結(jié)果。68variables not in the equation.9211.3375.0131.0256.4272.040x1x2variablesoverall statisticsstep0scoredfsig.該表反映的是如果將現(xiàn)有模型外的各個(gè)變量

48、納入模型,該表反映的是如果將現(xiàn)有模型外的各個(gè)變量納入模型,則整個(gè)模型的擬合優(yōu)度改變是否有統(tǒng)計(jì)學(xué)意義。若將則整個(gè)模型的擬合優(yōu)度改變是否有統(tǒng)計(jì)學(xué)意義。若將 (療法療法)引入,則模型改變有統(tǒng)計(jì)意義引入,則模型改變有統(tǒng)計(jì)意義( ) ,而將,而將(病情嚴(yán)重程度病情嚴(yán)重程度) 引入,則模型改引入,則模型改變無統(tǒng)計(jì)意義。變無統(tǒng)計(jì)意義。 2x1x0.05p 25.013,69omnibus tests of model coefficients6.7882.0346.7882.0346.7882.034stepblockmodelstep 1chi-squaredfsig.這是模型總的全局檢驗(yàn),為似然比檢驗(yàn),

49、共給出三個(gè)結(jié)這是模型總的全局檢驗(yàn),為似然比檢驗(yàn),共給出三個(gè)結(jié)果:果:step統(tǒng)計(jì)量為每一步與前一步相比的似然比檢驗(yàn)統(tǒng)計(jì)量為每一步與前一步相比的似然比檢驗(yàn)結(jié)果;結(jié)果;block統(tǒng)計(jì)量是將統(tǒng)計(jì)量是將block 1與與block 0相比的似然相比的似然比檢驗(yàn)結(jié)果;比檢驗(yàn)結(jié)果;model統(tǒng)計(jì)量則是上一個(gè)模型與現(xiàn)在模型統(tǒng)計(jì)量則是上一個(gè)模型與現(xiàn)在模型相比的似然比檢驗(yàn)結(jié)果。結(jié)果表明相比的似然比檢驗(yàn)結(jié)果。結(jié)果表明 兩個(gè)變量至少兩個(gè)變量至少有一個(gè)的作用是有統(tǒng)計(jì)意義的。有一個(gè)的作用是有統(tǒng)計(jì)意義的。block 1: method=enter12,x x70classification tablea15865.251

50、270.667.5observed未康復(fù)康復(fù)康復(fù)情況overall percentagestep 1未康復(fù)康復(fù)康復(fù)情況percentagecorrectpredictedthe cut value is .500a. 該表為引入該表為引入 的模型對(duì)因變量的分類預(yù)測(cè)情況。的模型對(duì)因變量的分類預(yù)測(cè)情況。預(yù)測(cè)準(zhǔn)確率由預(yù)測(cè)準(zhǔn)確率由57.5上升到上升到67.5,說明新變量的,說明新變量的引入對(duì)改善模型預(yù)測(cè)效果的確有意義。引入對(duì)改善模型預(yù)測(cè)效果的確有意義。12,x x71variables in the equation-.909.7241.5761.209.403-1.669.7295.2401.022

51、.188.928.6392.1101.1462.529x1x2constantstep1abs.e.walddfsig.exp(b)variable(s) entered on step 1: x1, x2.a. 上表結(jié)果表明,排除病情嚴(yán)重程度的混雜作用后,上表結(jié)果表明,排除病情嚴(yán)重程度的混雜作用后,傳統(tǒng)療法促使患者康復(fù)的能力為新療法的傳統(tǒng)療法促使患者康復(fù)的能力為新療法的0.188倍;倍;排除療法的混雜作用后,病情嚴(yán)重促使患者康復(fù)的能力排除療法的混雜作用后,病情嚴(yán)重促使患者康復(fù)的能力為病情不嚴(yán)重的為病情不嚴(yán)重的0.403倍。倍。對(duì)于變量對(duì)于變量 (病情嚴(yán)重程度病情嚴(yán)重程度)的的wald檢驗(yàn)結(jié)果

52、檢驗(yàn)結(jié)果p=0.209表明,病情嚴(yán)重程度對(duì)康復(fù)無影響。常數(shù)項(xiàng)表明,病情嚴(yán)重程度對(duì)康復(fù)無影響。常數(shù)項(xiàng)的的or=2.529,是指病情不嚴(yán)重且接受新療法者比數(shù),是指病情不嚴(yán)重且接受新療法者比數(shù)的自然對(duì)數(shù)值。的自然對(duì)數(shù)值。 1x72variables not in the equation5.0131.0255.0131.025x2variablesoverall statisticsstep 0scoredfsig.variables in the equation-1.504.6894.7631.029.222.405.456.7891.3741.500x2constantstep1abs.e.w

53、alddfsig.exp(b)variable(s) entered on step 1: x2.a. 剔除剔除 ,建立,建立 與與 的的logistic回歸方程回歸方程1xy2x22exp(0.405 1.504)1exp(0.405 1.504)ixpx73【例例2】 在一次關(guān)于公共交通的社會(huì)調(diào)查中,一個(gè)調(diào)查在一次關(guān)于公共交通的社會(huì)調(diào)查中,一個(gè)調(diào)查項(xiàng)目是項(xiàng)目是“是乘坐公共汽車上下班,還是騎自行車上下班是乘坐公共汽車上下班,還是騎自行車上下班”。因變量因變量 表示主要乘坐公共汽車上下班,表示主要乘坐公共汽車上下班, 表示表示主要騎自行車上下班。自變量主要騎自行車上下班。自變量 是年齡,作為連

54、續(xù)型是年齡,作為連續(xù)型變量;變量; 是月收入;是月收入; 是性別,是性別, 表示男性,表示男性,表示女性。調(diào)查對(duì)象為工薪族群體,試建立表示女性。調(diào)查對(duì)象為工薪族群體,試建立 與自變量與自變量間的間的logistic回歸?;貧w。例題分析例題分析1y 0y 1x2x3x31x 30 x y741 10 018188508500 02 20 02121120012000 03 30 023238508501 14 40 023239509501 15 50 02828120012001 16 60 031318508500 07 70 03636150015001 18 80 04242100010

55、001 19 90 046469509501 110100 04848120012000 011110 05555180018001 112120 05656210021001 113130 05858180018001 114141 118188508500 015151 12020100010000 016161 12525120012000 017171 12727130013000 018181 12828150015000 019191 130309509501 120201 13232100010000 021211 13333180018000 022221 13333100010000 023231 13838120012000 024241 14141150015000 025251 14545180018001 126261 14848100010000 027271 15252150015001 128281 15656180018001 1序號(hào)序號(hào)序號(hào)序號(hào)3x1x2xyy3x1x2x75classification tablea,b150100.0130.053.6observed01yoverall percentagestep 001ypercentagecorrectpredictedconstant is incl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論