![羅吉斯回歸方程式課件_第1頁](http://file4.renrendoc.com/view/de08e25881bb8bc747f3104495a70633/de08e25881bb8bc747f3104495a706331.gif)
![羅吉斯回歸方程式課件_第2頁](http://file4.renrendoc.com/view/de08e25881bb8bc747f3104495a70633/de08e25881bb8bc747f3104495a706332.gif)
![羅吉斯回歸方程式課件_第3頁](http://file4.renrendoc.com/view/de08e25881bb8bc747f3104495a70633/de08e25881bb8bc747f3104495a706333.gif)
![羅吉斯回歸方程式課件_第4頁](http://file4.renrendoc.com/view/de08e25881bb8bc747f3104495a70633/de08e25881bb8bc747f3104495a706334.gif)
![羅吉斯回歸方程式課件_第5頁](http://file4.renrendoc.com/view/de08e25881bb8bc747f3104495a70633/de08e25881bb8bc747f3104495a706335.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、羅吉斯回歸方程式課件羅吉斯回歸方程式課件複迴歸模型複迴歸分析:研究一個應(yīng)變數(shù)y與兩個以上自變數(shù)之間的關(guān)係迴歸模型與迴歸方程式: 1.複迴歸模型(multiple regression model):用來描述應(yīng)變數(shù)y與自變數(shù)x1、x2及誤差項間關(guān)係的方程式。公式為 y=0+1x1+2x2+.+pxp+複迴歸模型複迴歸分析:研究一個應(yīng)變數(shù)y與兩個以上自變數(shù)之間的 2.複迴歸方程式(multiple regression equation):描述y的平均數(shù)與自變數(shù)x1.x2xp間關(guān)係的方程式,其公式為 E(y)=0+1x1+2x2+.+pxp估計迴歸方程式 以簡單隨機樣本來計算樣本統(tǒng)計量b0.b1b
2、p,並以這些統(tǒng)計量作為參數(shù)0,1的點估計值,由此可導出估計迴歸方程式,其公式為: 2.複迴歸方程式(multiple regress y=b0+b1x1+b2x2+bpxp , 其中, b0.b1bp為0,1p的估計值下圖為複迴歸的估計過程。 y=b0+b1x1+b2x2+複迴歸模型y=0+1x1+2x2+.+pxp+複迴歸方程式E(y)=0+1x1+2x2+.+pxp0,1p為未知數(shù)樣本資料x1.x2xp.y . . . . . . . .計算估計迴歸方程式y(tǒng)=b0+b1x1+b2x2+.+bpxpb0,b1,b2bp為樣本統(tǒng)計量以b0,b1,b2bp為0,1,2p的估計值複迴歸模型樣本資料
3、計算估計迴歸方程式以b0,b1,b2b最小平方法最小平方法準則 min(yi-yi)2, 其中,yi=第i個應(yīng)變數(shù)的觀察值 yi=第i個應(yīng)變數(shù)的估計值應(yīng)變數(shù)的估計值是利用估計迴歸方程式算出的最小平方法使用樣本資料,得使殘差平方和最小的組合b0.b1. b2bp最小平方法最小平方法準則Ex:巴特貨運公司 巴特公司的管理階層想對駕駛員的每日行駛總時數(shù)做估計。 起初管理者相信每日行駛總時數(shù)與行駛里程數(shù)密切相關(guān),於是隨機抽取10筆駕駛紀錄,如表1,資料集的散佈圖如圖1。 檢視散佈圖後,管理階層假設(shè)簡單的線性迴歸模式y(tǒng)=0+1x1+應(yīng)可用來描述總行駛時數(shù)(y)與行駛里程數(shù)(x)間的關(guān)係。為估計0與1,用
4、最小平方法建立了y=b0+b1x1的估計迴歸方程式Ex:巴特貨運公司表1 巴特公司的原始資料駕駛12345678910X1=行駛里程數(shù)10050100100508075659090y=行駛時間(小時)9.34.88.96.54.26.27.46.07.66.1表1 巴特公司的原始資料駕駛X1=行駛里程數(shù)y=行駛時間圖1 巴特公司的原始資料散佈圖507080901006047891056行駛里程數(shù)xy總行駛時間(小時)圖1 巴特公司的原始資料散佈圖5070809010060下圖為運用Minitab軟體對表1資料做簡單線性迴歸後所得之統(tǒng)計報表The regression equation is T
5、ime = 1.27+0.0678 MilesPredictor Coef SE Coef T PConstant 1.274 1.401 0.91 0.390Miles 0.06783 0.01706 3.98 0.004S=1.002 R-sq=66.4% R-sq (adj)=62.2%Analysis of Variance SOURCE DF SS MS F PRegression 1 15.871 15.871 15.81 0.004Residual Error 8 8.029 1.004 Total 9 23.900含一個自變數(shù)的Minitab 電腦報表下圖為運用Minitab軟
6、體對表1資料做簡單線性迴歸後所得之在0.05的顯著水準下,F(xiàn)值為15.81,p值為0.004結(jié)論:行駛里程數(shù)與行駛時間的關(guān)係是顯著的;即行駛里程數(shù)越長時,行駛所需的時間也越長。判定係數(shù)為66.4% 此線性效果可解釋66.4%的行駛時間之變異數(shù)在0.05的顯著水準下,F(xiàn)值為15.81,p值為0.004巴特公司又蒐集送貨批數(shù)的資料如下(包含兩個自變數(shù)行駛里程數(shù)x1與送貨批數(shù)x2駕駛12345678910X1=行駛里程數(shù)10050100100508075659090y=行駛時間(小時)9.34.88.96.54.26.27.46.07.66.1X2=送貨批數(shù)4342223432巴特公司又蒐集送貨批數(shù)
7、的資料如下(包含兩個自變數(shù)行駛里程數(shù)The regression equation is Time = -0.869+0.0611 Miles+0.923 DeliveriesPredictor Coef SE Coef T PConstant -0.8687 0.9515 -0.91 0.392Miles 0.061135 0.0009888 6.18 0.000S=0.5731 R-sq=90.4% R-sq (adj)=87.6%Analysis of Variance SOURCE DF SS MS F PRegression 2 21.601 10.800 32.88 0.000Re
8、sidual Error 7 2.299 0.328 Total 9 23.900含兩個自變數(shù)的Minitab電腦報表The regression equation is Tim上表提到估計迴歸方程式為: y= = -0.869+0.0611 x1+0.923 x2以下探討上式中,b1=0.0611與b2=0.923兩個係數(shù)的涵義在迴歸方程式中,包含一個自變數(shù)與包含兩個自變數(shù)得到的b1不相等上表提到估計迴歸方程式為:在簡單線性迴歸中, b1指自變數(shù)變動一個單位時,應(yīng)變數(shù)的變動量;複迴歸中, bi係數(shù)表當其他自變數(shù)固定不變時,xi變動一單位,應(yīng)變數(shù)的變動量以巴特公司為例, b1 =0.0611,
9、代表當送貨批數(shù)(x2)固定時,行駛距離(x1)增加一哩,則行駛時間預期增加0.0611小時b2=0.923表當行駛里程數(shù)固定,送貨次數(shù)增加一次,行駛時間預期增加0.923小時在簡單線性迴歸中, b1指自變數(shù)變動一個單位時,應(yīng)變數(shù)的變動SST,SSR與SSE的關(guān)係 SST=SSR+SSE 其中 SST=總平方和=(yi - y)2 SSR=迴歸造成的平方和=(yi - y)2 SSE=誤差造成的平方和=(yi - yi)2 SST,SSR與SSE的關(guān)係含兩個自變數(shù)的巴特勒貨運公司例子中 SST=23.9 SSR=21.601 SSE=2.299含一個自變數(shù)的巴特勒貨運公司例子中 SST=23.9
10、 SSR=15.871 SSE=8.029兩個例子中的SST是相等的,因為SST與y 無關(guān)。 在含兩個變數(shù)的情況中,加入第二個自變數(shù)的SSR增加,而SSE減少。此表示估計迴歸方程式的適合度提高了。含兩個自變數(shù)的巴特勒貨運公司例子中複判定係數(shù)(Multiple Coefficient of Determination ) R2 =複判定係數(shù)可解釋為估計迴歸方程式所能解釋的應(yīng)變數(shù)之變異量。若將複判定係數(shù)乘上100,代表了可由估計迴歸方程式所解釋的y的變異百分比。SSRSST複判定係數(shù)(Multiple Coefficient of含兩個自變數(shù)的巴特勒貨運公司例子中 R2 =21.601 / 23.
11、9 = 0.904 行駛時間y的變異有90.4%可用來解釋含 行駛哩程數(shù)及送貨批數(shù)兩個自變數(shù)的迴歸方程式。含一個自變數(shù)的巴特勒貨運公司例子中 R2 = 0.664 以行駛哩程數(shù)作為迴歸方程式解釋了行駛時間66.4%的變異。一般而言,迴歸模型中的自變數(shù)個數(shù)增加時,R2也會提高(本例:66.4%90.4%)。含兩個自變數(shù)的巴特勒貨運公司例子中調(diào)整複判定係數(shù)(Adjusted Multiple Coefficient of Determination ) Ra = 1-( 1 - R2 ) 在巴特勒貨運公司例子中 Ra = 1-( 1-0.904 ) = 0.882n - 1n-p-110 -110
12、 -2-12調(diào)整複判定係數(shù)(Adjusted Multiple Coe模型假設(shè)複迴歸模型 y =0+1x1+2x2+.+pxp+關(guān)於誤差項的假設(shè) (1)誤差項是平均數(shù)或期望值為零的隨機變數(shù);亦即E()=0 E(y) =0+1x1+2x2+.+pxp模型假設(shè)複迴歸模型關(guān)於誤差項的假設(shè) (2)對所有自變數(shù)x1,x2, xp而言,的變異數(shù)恆等於2。 (3)值相互獨立。 某一特定自變數(shù)值的誤差大小與另一組值 的誤差大小無關(guān)。 (4)誤差為反應(yīng)值y與給定0+1x1+2x2+.+pxp的y的期望值間的離差之常態(tài)分配隨機變數(shù)。關(guān)於誤差項的假設(shè) (2)對所有自變數(shù)x1,x2, 含兩個自變數(shù)的複迴歸方程式的圖形
13、X2X1y(X1*,X2*)X2*X1*當X1=X1* , X2=X2* 時的y值當X1=X1* , X2=X2* 時的E(y)值相對於X1=X1* , X2=X2* 的點對應(yīng)於E(y) =0+1x1+2x2的平面0含兩個自變數(shù)的複迴歸方程式的圖形X2X1y(X1*,X15.5 顯著性檢定 簡單線性迴歸中,t檢定與F檢定會得到相同的結(jié)論。但在複迴歸中,t檢定與F檢定則有不同的結(jié)果。1.在複迴歸中, F檢定用來判定應(yīng)變數(shù)與所有自變數(shù)所成的集合間是否有顯著關(guān)係,所以我們稱F檢定為總體顯著性(overall significance)的檢定。2.如果F檢定的結(jié)果是顯著的,再利用t檢定來檢定模型中個別
14、自變數(shù)的顯著性,所以我們稱t檢定為個別顯著性(individual significance)的檢定。15.5 顯著性檢定 簡單線性迴歸中,t檢定與F檢定會得F檢定15.4節(jié)所定義的複迴歸模型如下。F檢定的虛無與對立假設(shè)如下。y=0+1x1+2x2+pxp+H0 : 0=1=2=p=0Ha : 至少有一個參數(shù)不等於0F檢定15.4節(jié)所定義的複迴歸模型如下。y=0+1x1+ MSE可作為誤差項之變異數(shù)2的不偏估計量。如果虛無假設(shè)H0 : 0=1=2=p=0為真, MSR也是2的不偏估計量,所以MSR/MSE會接近1。反之,如果H0為假, MSR會高估2,所以MSR/MSE就會變大。 至於MSR/
15、MSE多大時才要拒絕H0?我們運用的觀念如下:如果H0為真,且有關(guān)迴歸模型的諸項假設(shè)皆為真, MSR/MSE的抽樣分配是分子自由度為p,分母自由度為n-p-1的F分配。MSR=SSRpMSE=SSEn-p-1(15.12)(15.13) MSE可作為誤差項之變異數(shù)2的不偏估計量。如果虛無範例:巴特勒貨運公司H0 : 1=2=0Ha : 1與2至少有一個不為0圖15.6是以行駛哩程數(shù)(x1)及送貨批數(shù)(x2)為兩個自變數(shù)的Minitab統(tǒng)計報表。在變異數(shù)分析的部分可以看到,MSR=10.8且MSE=0.328。運用式(15.14)可以得到檢定統(tǒng)計量為10.80.328F= = 32.9範例:巴特
16、勒貨運公司H0 : 1=2=0圖15.6是以行 請注意報表中的F值為32.88,與我們使用四捨五入後的MSR與MSE所做的計算有些許差異。統(tǒng)計報表的變異分析表(圖15.6)的最後一欄,在=0.01的顯著水準下,因為p值=09.55,拒絕H0 : 1=2=0,而可以說行駛時間y與兩個自變數(shù)行駛哩程數(shù)及送貨批數(shù)的複迴歸關(guān)係是顯著的。 請注意報表中的F值為32.88,與我們使用四捨五入後的 誤差均方也可作為誤差項之變異數(shù)2的不偏估計量。 圖15.6可以看到2的估計值是MSE =0.328。MSE的平方根也就是誤差項之標準差的估計值。我們稱這個標準差為估計值的標準差,以s表示。因此,我們可以得到 請注
17、意估計值的標準差也出現(xiàn)在圖15.6的Minitab報表中。s = MSE = 0.328 =0.573 誤差均方也可作為誤差項之變異數(shù)2的不偏估計量。 表15.3是變異數(shù)分析(ANOVA)的通式,我們可以利用這張表來做複迴歸模型的F檢定。統(tǒng)計檢定量F出現(xiàn)在最後一欄,我們可以將之與分子自由度為p,分母自由度為n-p-1的F做比較,以決定是否要拒絕虛無假設(shè)。 藉由回顧圖15.6中,巴特勒貨運公司的Minitab統(tǒng)計報表,我們見到Minitab 的變異數(shù)分析表包含這些資訊。此外, Minitab也提供相當於F檢定的p值。 表15.3是變異數(shù)分析(ANOVA)的通式,我們可以利圖15.6 含行駛哩程數(shù)
18、(x1)及送貨批數(shù)(x2) 兩個自變數(shù) 的巴特勒貨運公司Minitab的電腦報表The regression equation is Time = - 0.869+0.0611 Miles+0.923 DeliveriesPredictor Coef SE Coef T PConstant 1.274 1.401 0.91 0.390Miles 0.06783 0.01706 3.98 0.004Deliveries 0.9234 0.2211 4.18 0.004S=0.5731 R-sq=90.4% R-sq (adj)=87.6%Analysis of Variance SOURCE D
19、F SS MS F PRegression 2 21.601 10.800 32.88 0.000Residual Error 7 2.299 0.328 Total 9 23.900圖15.6 含行駛哩程數(shù)(x1)及送貨批數(shù)(x2) 兩個表15.3 含p個自變數(shù)的複迴歸模型之ANOVA表變異來源迴歸項誤差項總變異平方和SSRSSESST自由度pn-p-1n-1F值均方MSR=SSRpMSE=SSEn-p-1F=MSRMSE表15.3 含p個自變數(shù)的複迴歸模型之ANOVA表變異來源在t檢定中,sbi是bi的標準差的估計值,以巴特勒貨運公司來進行t檢定。圖15.6 的統(tǒng)計報表中有t值的部分:運用
20、式(15.15),可以得到與檢定1與2兩個參數(shù)有關(guān)的檢定統(tǒng)計量。sb1 =0.009888sb2=0.2211b1 =0.061135b2 =0.9234t =0.061135/0.009888=6.18t =0.9234/0.2211=4.18在t檢定中,sbi是bi的標準差的估計值,以巴特勒貨運公司來 請注意這兩個t值在Minitab報表中都有提供,在=0.01且自由度為n-p-1=10-2-1=7的情況下,參照附錄B表2,t0.005=3.499,由於6.183.499,我們可以拒絕1=0的虛無假設(shè)。同理,由於4.183.499,2=0的虛無假設(shè)亦被拒絕。 請注意這兩個t值在Minita
21、b報表中都有提供,在=多重共線性 複迴歸問題中的許多自變數(shù)間常有某種程度的相關(guān)。 在複迴歸分析中,我們以多重共線性(multicollinearity)這名詞來表示自變數(shù)之間的相關(guān)。 在巴特勒貨運公司問題略作修改,將x2由原先的送貨批數(shù)改為消耗的汽油數(shù),顯然x1(行駛哩程數(shù))與x2是相關(guān)的。我們可以合理推論x1與x2為高度相關(guān)的自變數(shù)。多重共線性 複迴歸問題中的許多自變數(shù)間常有某種程度的相關(guān) 假定我們得到方程式y(tǒng)= 0+1x1+2x2,且F檢定顯示迴歸為顯著。然後進行t檢定以判斷是否10時,無法拒絕H0 : 1=0。此種情形是否意味著行駛時間與行駛哩程數(shù)無關(guān)呢?答案是未必。其可能意味著:當x2
22、已在模型中時,x1對於y值的決定並無顯著的貢獻。 假定我們得到方程式y(tǒng)= 0+1x1+2x2,且F 總之,多重共線性可能製造的難題是,當整個複迴歸程式的F檢定為顯著時,對個別參數(shù)的顯著性做t檢定後,個別參數(shù)的檢定結(jié)論卻可能無一為顯著不等於0。 兩個自變數(shù)的簡單相關(guān)係數(shù)大於+0.7或小於-0.7是潛在多重共線性的警惕法則。 當自變數(shù)為高度相關(guān),則不可能區(qū)分出個別自變數(shù)對應(yīng)變數(shù)的效果。 總之,多重共線性可能製造的難題是,當整個複迴歸程式的F利用估計迴歸方程式進行估計與預測在巴特公司的例子中,假設(shè)要用含x1(行駛哩程數(shù))及x2(送貨批數(shù))的估計迴歸方程式來求得兩種估計: 1.建立行駛100哩與運送2
23、批貨物的所有卡車之平均行駛時間的信賴區(qū)間估計 2.建立行駛100哩與運送2批貨物的某一特定卡車之行駛時間的預測區(qū)間估計利用估計迴歸方程式進行估計與預測在巴特公司的例子中,假設(shè)要用巴特公司問題中95%信賴與預測區(qū)間估計值X1值505050100100100X2值234234下限3.1464.1274.8156.2587.3858.135上限4.9245.7896.9487.9268.6459.742下限2.4143.3684.1575.5006.5207.362上限5.6566.5487.6078.6839.51010.515信賴區(qū)間預測區(qū)間巴特公司問題中95%信賴與預測區(qū)間估計值X1值X2值下
24、限上限將條件帶入估計迴歸方程式可得以下列式: y=-0.869+0.0611(100)+0.923(2)=7.09可看到個別的y值其區(qū)間預測值的範圍比y的期望值區(qū)間預測值還寬此差異反應(yīng)了:在給定的x1與x2值之下,預測所有卡車的平均行駛時間較預測特定卡車的行駛時間來的準確將條件帶入估計迴歸方程式可得以下列式:定性自變數(shù)(qualitative independent variable)至目前為止所討論的都是定量自變數(shù)(如:學生人數(shù)、送貨批數(shù)等)定性自變數(shù)如性別(男、女)、付款方式(信用卡、現(xiàn)金、支票等)定性自變數(shù)(qualitative independentEx:強生濾水器公司強生公司有提供
25、濾水器系統(tǒng)的維修服務(wù),為評估服務(wù)時間與服務(wù)成本,該公司經(jīng)理想預測每次的維修時間。因此,以小時為單位的維修時間是應(yīng)變數(shù)。根據(jù)經(jīng)理的判斷,維修時間與兩種因素有關(guān)。分別為本次與上次叫修的時間間隔,及濾水器的維修問題類型是機械或是機電問題。公司蒐集10次的服務(wù)紀錄(見下表)Ex:強生濾水器公司強生公司有提供濾水器系統(tǒng)的維修服務(wù),為評服務(wù)紀錄12345678910距上次叫修時間(月)2683279846維修問題類型機電機械機電機械機電機電機械機械機電機電維修所需時間(小時)2.93.04.81.82.94.94.24.84.44.5服務(wù)紀錄距上次叫修維修問題類型維修所需時間(小時)只用x1預測y所建立的
26、迴歸模型如下: y=0+1x1+利用Minitab得到的統(tǒng)計報表如下頁圖所示,而其估計迴歸方程式為: y=2.15+0.304x1只用x1預測y所建立的迴歸模型如下:The regression equation is Time = 2.15+0.304 MonthsPredictor Coef SE Coef T PConstant 2.1473 0.6050 3.55 0.008Months 0.3041 0.1004 3.03 0.016S=0.7810 R-sq=53.4% R-sq (adj)=47.6%Analysis of Variance SOURCE DF SS MS F P
27、Regression 1 5.5960 5.5960 9.17 0.016Residual Error 8 4.8800 0.6100 Total 9 10.4760含一個自變數(shù)的強生公司電腦報表The regression equation is Tim在=0.05的顯著水準下,以x1自變數(shù)的報表中可看出 t 檢定的p值為0.016,此表示x1與維修所需時間的關(guān)係是顯著的。為了將維修問題的類型放進模型中,定義以下變數(shù): x2=0 如果維修問題類型屬於機械類1 如果維修問題類型屬於機電類 在=0.05的顯著水準下,以x1自變數(shù)的報表中可看出 t 在迴歸分析中,稱x2為虛擬變數(shù)(dummy va
28、riable)或是指示變數(shù)(indicator variable) 迴歸模形變成: y=0+1x1+2x2+新的估計迴歸方程式如下: y = 0.93+0.388x1+1.26x2在0.05的顯著水準下,F(xiàn)檢定的p值為0.001:迴歸的關(guān)係是顯著的(修正後資料報表見下頁) 在迴歸分析中,稱x2為虛擬變數(shù)(dummy variableThe regression equation is Time = 0.93+0.388 Months+1.26 TypePredictor Coef SE Coef T PConstant 0.9305 0.4670 1.99 0.087Months 0.3876
29、2 0.06257 6.20 0.0000Type 1.2627 0.3141 4.02 0.005S=0.4590 R-sq=85.9% R-sq (adj)=81.9%Analysis of Variance SOURCE DF SS MS F PRegression 2 9.0009 4.5005 21.36 0.001Residual Error 7 1.4751 0.2107 Total 9 10.4760含兩個自變數(shù)的強生公司電腦報表The regression equation is Tim在虛擬變數(shù)存在的情況下,如何解釋參數(shù)0、1、2 ?先看x2=0的情況(維修問題類型屬於機械
30、問題) 以E(y 機械型)來表示已知維修問題的類型所需的平均維修時間 E(y 機械型)=0+1x1+2(0)=0+1x1 E(y 機電型)=0+1x1+2(1) =(0+2)+1x1在虛擬變數(shù)存在的情況下,如何解釋參數(shù)0、1、2 ?上面兩式,不論是機械型還是機電型所需的維修時間都是x1的線性函數(shù)。(兩方程式的斜率皆為1)機械型維修問題的截距為0;機電型維修問題的截距為0+2 兩式的截距差為2 : 2代表兩種不同維修類型所需的時間之期望值的差距2若為正,機電型維修時間會大於機械型,反之亦然上面兩式,不論是機械型還是機電型所需的維修時間都是x1的線性2若為0,兩種問題的維修時間相同,即問題的類型與
31、維修所需的時間無關(guān)聯(lián)運用估計迴歸方程式: 當x2=0,y=0.93+0.388x1 當x2=1,y=0.93+0.388x1+1.26 =2.19+0.388x1由以上可知,平均而言,機電型問題的維修較機械型所需的時間多了1.26小時2若為0,兩種問題的維修時間相同,即問題的類型與維修所需的服務(wù)紀錄12345678910距上次叫修時間(月)2683279846維修問題類型1010110011維修所需時間(小時)2.93.04.81.82.94.94.24.84.44.5將維修問題依虛擬變數(shù)表示之資料服務(wù)紀錄距上次叫修維修問題類型維修所需時間(小時)將維修問題依上頁表所得之維修資料散佈圖1413
32、20076532109854yx1距離上次叫修的時間(月)維修所需的時間(小時)EEEE,EMMME,My=2.19+0.388X1(機電型)y=0.93+0.388X1(機械型)M機械型問題E機電型問題依上頁表所得之維修資料散佈圖1413200765321098更複雜的定性變數(shù)若定性變數(shù)有個k可能的值,則必須定義k-1個虛擬變數(shù)每個虛擬變數(shù)的値非0即1EX:某影印機製造商將某一州分成A.B.C三個營業(yè)區(qū),欲用迴歸分析來預測每週影印機的銷售額。 更複雜的定性變數(shù)若定性變數(shù)有個k可能的值,則必須定義k-1個解題: 由於銷售地區(qū)有三個,故必須要3-12個虛擬變數(shù)來代表這三個地區(qū)1 地區(qū)B0 其他
33、x1 =x2 =1 地區(qū)C0 其他 解題:1 地區(qū)B0 其他 x1 =x2 =1經(jīng)上述定義,可以得到下列x1、x2及其所代表的地區(qū)別的資料如下:對應(yīng)地區(qū)A的觀察值是x10,x20,以此類推地區(qū)別 x1 x2 A 0 0 B 1 0 C 0 1經(jīng)上述定義,可以得到下列x1、x2及其所代表的地區(qū)別的資料如以虛擬變數(shù)建立的銷售期望值之迴歸方程式可表達如下: E(y)=0+1x1+2x2為解釋參數(shù)0、1、2 ,以下有三個迴歸方程式的變化型: E(y 地區(qū)A)=0+1(0)+2(0)=0 E(y 地區(qū)B)=0+1(1)+2(0)=0+1 E(y 地區(qū)C)=0+1(1)+2(1)=0+1+2 以虛擬變數(shù)建
34、立的銷售期望值之迴歸方程式可表達如下:因此, 0是地區(qū)A銷售量的平均數(shù)(或期望值) 1是地區(qū)A、B平均銷售量的差異 2則是地區(qū)A、C平均銷售量的差異(重點提示:當定性變數(shù)有K個水準時,在迴歸分析必須用到K-1個虛擬變數(shù)?。┮虼?, 0是地區(qū)A銷售量的平均數(shù)(或期望值)殘 差 分 析yi - yiSyi - yiSyi yi = 第 i 個殘差的標準差其中第 i 個觀察值的標準化殘差殘 差 分 析yi - yiSyi - yiSyi 殘 差 分 析其中第 i 個殘差的標準差Syi yi = S1 - hiS = 估計值的標準差hi = 第 i 個觀察值的槓桿作用殘 差 分 析其中第 i 個殘差的標
35、準差Syi yi =表15.7這些值是由Minitab統(tǒng)計報表中得到的,其預測值是利用估計迴歸方程式 y=-0.869+0.0611x1+0.923x2求得的。圖15.10是運用了表15.7所提供的資料而建立之標準化殘差對預測值的殘差圖。 所有的標準化殘差都落在-2與+2之間,因此不需要質(zhì)疑誤差項為常態(tài)分配的假設(shè),其所建立的迴歸模型應(yīng)是合理的。表15.7這些值是由Minitab統(tǒng)計報表中得到的,其預測值表15.7巴特勒貨運公司問題的殘差與標準化殘差 行駛哩程數(shù) (x1)送貨批數(shù) (x2)行駛時間 (y)預測時間 (y) 殘差 (y - y)標準化殘差100 50100100 50 804342
36、229.34.88.96.54.26.28.938464.958308.938467.091614.034885.86892 0.361541-0.158304-0.038460-0.591609 0.165121 0.331083 0.78344 -0.34962 -0.08334 -1.30929 0.38167 0.65431表15.7巴特勒貨運公司問題的殘差與標準化殘差 行駛送貨批數(shù)圖15.10巴特勒貨運公司的標準化殘差圖-2-1021456789y標準化殘差圖15.10巴特勒貨運公司的標準化殘差圖-2-1021456 偵 測 離 群 值離群值(outlier)是指與其他資料相比較不尋
37、常的觀察值不遵循由其他資料所建立的模式或類型。Minitab對離群值的界定是一個觀察值的標準化殘差若是小於-2或大於+2,就屬於離群值。 用這個標準檢視表15.7巴特勒公司的資料,可以發(fā)現(xiàn)在該資料集中並沒有離群值存在。 偵 測 離 群 值離群值(outlier)是指與其他資料相偵 測 離 群 值在計算標準化殘差的分母Syi yi時會用到S,S如果增加,標準化殘差值會因為分母變大而使整個值變小。 即使標準化殘差值本來可能是太大的,但是在分母變大的情況下,可能會使標準化殘差沒有大到讓我們偵測出離群值的存在。 我們使用Student化刪除殘差來取代原來的標準化殘差的計算方式。偵 測 離 群 值在計算
38、標準化殘差的分母Syi yi時會Student化刪除殘差與離群值將資料集中的第i個觀察值刪除,然後以剩下的n-1個觀察值來建立新的估計迴歸方程式,用S(i)來表示新估計值的標準差。我們用S(i)而非S來計算修正過的Syi yi ,再用來計算第i個觀察值的標準化殘差稱為Student化刪除殘差??梢詡蓽y到原來使用標準化殘差時偵測不到的離群值。Student化刪除殘差與離群值將資料集中的第i個觀察值刪除使用Minitab所得的巴特勒公司的Student化刪除殘差如表15.8。t分配可以用來判定Student化刪除殘差是否指出離群值。我們以p表示自變數(shù)的個數(shù),n表示觀察值的變數(shù),所以若是刪除了第i個
39、觀察值,觀察值的個數(shù)應(yīng)為n-1,誤差平方和的自由度變成(n-1)-p-1。使用Minitab所得的巴特勒公司的Student化刪除殘差以巴特勒公司為例(n=10,P=2) 誤差平方和的自由度=9-2-1=6在0.05的顯著水準下,t分配表中自由度為6的t0.025=2.447。假定第i個Student化刪除殘差小於-2.447或大於+2.447第i個觀察值是離群值。表15.8中的Student化刪除殘差都不符合此範圍該資料集中沒有離群值。刪去一個觀察值以巴特勒公司為例(n=10,P=2)刪去一個觀察值表15.8巴特勒貨運公司的Student化刪除殘差 行駛哩程數(shù) (x1)送貨批數(shù) (x2)行駛
40、時間 (y)標準化殘差100 50100100 50 804342229.34.88.96.54.26.2 0.78344 -0.34962 -0.08334 -1.30929 0.38167 0.65431Student化刪除殘差 0.75939 -0.32654 -0.07720 -1.39494 0.35709 0.62519表15.8巴特勒貨運公司的Student化刪除殘差 行駛送貨具影響力的觀察值Minitab軟體運用經(jīng)驗法則,將hi3(p+1)/n作為界定觀察值是否具有強烈影響力的標準。在巴特勒公司的例子中(n=10,P=2),如果槓桿作用大於3(2+1)/10=0.9該觀察值具強
41、烈影響力。表15.9並沒有符合此一標準的槓桿作用在此資料集裡,並沒有具影響力的觀察值。具影響力的觀察值Minitab軟體運用經(jīng)驗法則,將hi3(表15.9巴特勒貨運公司的槓桿作用值及其庫克距離 行駛哩程數(shù) (x1)送貨批數(shù) (x2)行駛時間 (y)槓桿作用 (hi)100 50100100 50 804342229.34.88.96.54.26.2 0.351704 0.375863 0.351704 0.378451 0.430220 0.220557庫克距離度量 (Di) 0.110994 0.024536 0.001256 0.347923 0.036663 0.040381表15.9巴
42、特勒貨運公司的槓桿作用值及其庫克距離 行駛送貨批使用庫克距離度量來判定具影響力的觀察值使用槓桿作用來判定具影響力的觀察值可能產(chǎn)生的問題是:被認為具高槓桿作用值的觀察值未必對所求得的估計迴歸方程式具影響力。表15.10 xi yi hi1 18 0.2041701 21 0.2041702 22 0.1642053 21 0.1381414 23 0.1259774 24 0.1259775 26 0.12771515 39 0.909644使用庫克距離度量來判定具影響力的觀察值使用槓桿作用來判定具以Minitab所得的估計迴歸方程式如下: y =18.2+1.39x將觀察值x=15 , y=3
43、9自資料集刪除,再由剩下的7個觀察值建立新的估計迴歸方程式如下: y=18.1+1.42x雖然槓桿作用的判定告訴我們第8個觀察值是具有影響力的觀察值,但去掉這個觀察值後所得到的新方程式與原方程式並無太大差別。 在某些情況中,若是僅用槓桿作用來判定具影響力的觀察值,是有可能誤判的。 以Minitab所得的估計迴歸方程式如下:圖15.11 資料集的散佈圖353025201540yx150510使用所有資料建立的估計迴歸方程式y(tǒng)=18.2+1.39x註:去除觀察值(15,39)後所得到的估計迴歸方程式y(tǒng)=18.1+1.42x圖15.11 資料集的散佈圖353025201540yx15庫克距離度量(C
44、ooks distance measure)其中 Di = 第i個觀察值的庫克距離度量 yi - yi = 第i個觀察值的殘差 hi = 第i個觀察值的槓桿作用 p = 自變數(shù)的數(shù)目 s = 估計值的標準差Di =(yi - yi)2(p - 1)s2(1- hi)2hi庫克距離度量(Cooks distance measur庫克距離度量運用了第i個觀察值的槓桿作用hi及殘差(yi - yi)來判定觀察值是否具影響力。如果殘差以及(或者)槓桿作用很大,庫克距離度量將很大該觀察值具影響力。根據(jù)經(jīng)驗法則,如果第i個觀察值的庫克距離度量Di1,即代表該觀察值具影響力,值得進一步研究。庫克距離度量運用
45、了第i個觀察值的槓桿作用hi及殘差(yi -15.9羅吉斯迴歸範例:Sim百貨的郵件促銷 每本型錄中提供消費超過200以上即可使用的50折價券。由於型錄成本昂貴, Sim所以公司希望給予高機率會消費的顧客。 15.9羅吉斯迴歸範例:Sim百貨的郵件促銷管理者認為顧客在Sim百貨的年度開銷和其是否使用Sim的信用卡,可幫助預測是否收到型錄而會使用折價券消費200的兩個自變數(shù)。 Sim隨機取樣50位Sim信用卡會員與50位沒有Sim信用卡的顧客進行試驗。前10位收到型錄的顧客資料顯示如表15.11。管理者認為顧客在Sim百貨的年度開銷和其是否使用Sim的信用表15.11 Sim百貨的樣本資料顧客1
46、2345678910 年度開銷($1,000)2,2913,2152,1353,9242,5282,4732,3847,0761,1823,345Sim信用卡1110100010消費與否0000010010表15.11 Sim百貨的樣本資料顧客 年度開銷($1,0若顧客來店消費則編碼為1,反之為0。信用卡使用資訊以1代表顧客使用Sim信用卡,反之為0。消費欄中, 1代表其樣本消費200且使用50折價券。可考慮利用表15.11資料所建立的複迴歸模式來幫助預測是否收到型錄會引起消費行為。用年度開銷和Sim信用卡作為自變數(shù),消費行為作為應(yīng)變數(shù)。此例顯示發(fā)展羅吉斯迴歸的情境。若顧客來店消費則編碼為1,
47、反之為0。羅吉斯迴歸方程式 和普通迴歸方程式有諸多類似。其要求一個應(yīng)變數(shù)y和一個或多個自變數(shù)。在複迴歸分析中,y的平均數(shù)或期望值E(y)是參照複迴歸方程式。E(y)=0+1x1+2x2+pxp(15.26)(15.27)E(y)=e0+1x1+2x2+pxp1+e0+1x1+2x2+pxp羅吉斯迴歸方程式羅吉斯迴歸方程式 和普通迴歸方程式有諸多類似。其要求一個 若應(yīng)變數(shù)的值為0或1,則式(15.27)中, E(y)的值提供給定特定集合y=1下,自變數(shù)x0,x1,xp的機率。因為E(y)是以機率來解釋,因此羅吉斯迴歸方程式(logistic regression equation)如下。以E(y
48、)解釋羅吉斯迴歸機率(15.28)E(y)= P(y=|x0,x1,xp) 若應(yīng)變數(shù)的值為0或1,則式(15.27)中, E(y) 假定模式僅包含一個自變數(shù)x和模式參數(shù)值0= -7和1=3,則羅吉斯迴歸方程式為 圖15.12顯示式(15.29)的曲線圖。圖呈S型。 E(y)值由0到1,其S曲線使式(15.29)理想地配適模型應(yīng)變數(shù)等於1的機率。(15.29)e0+1x11+e0+1x1E(y)= P(y=1|x) = = e -7+3x1+e -7+3x 假定模式僅包含一個自變數(shù)x和模式參數(shù)值0= -7和圖15.12 參數(shù)值0= -7和1=3的羅吉斯迴歸方程式圖示自變數(shù)(x)E(y)0.60.
49、40.20.01.00.81 2 3 4 5圖15.12 參數(shù)值0= -7和1=3的羅吉斯迴歸方程估計羅吉斯迴歸方程式(15.30)y= (y=|x0,x1,xp)的估計值 =eb0+b1x1+b2x2+bpxp1+eb0+b1x1+b2x2+bpxp 因此, y提供當給定自變數(shù)的特殊集合值時, y =1的機率估計值。 我們回到sim的例子。變數(shù)如下。估計羅吉斯迴歸方程式(15.30)y= (y=|x0,x1,y=x1=在sim百貨的年度開銷(1,000)x2=0 測試期間顧客沒有消費1 測試期間顧客有消費顧客沒有sim信用卡顧客有sim信用卡因此,我們根據(jù)兩自變數(shù)選擇羅吉斯迴歸方程式(15.
50、31)E(y)=e0+1x1+2x21+e0+1x1+2x2y=x1=在sim百貨的年度開銷(1,000)x2=0 y=e -2.1464 +0.3416 x1+1.0987x21+e 使用樣本資料(表15.11)與圖15.13,其中b0-2.1464,b10.3416,b21.0987,因此可估計羅吉斯迴歸方程式如下。 可使用式(15.32)來估計會消費的特殊客戶類型。例如,欲估計每年消費2,000且沒有sim信用卡的顧客機率,將x12,x20代入式(15.32) -2.1464 +0.3416 x1+1.0987x2(15.32) y=e -2.1464 +0.3416 x1+1.09 欲
51、估計去年消費$2,000且具有sim信用卡的顧客機率,將x12,x21代入式(15.32) = = e -1.46231+e y=e -2.1464 +0.3416(2)+1.0987(0)1+e -2.1464 +0.3416(2)+1.0987(0) -1.46230.23151.2315=0.1880 = 此機率接近0.41 ,顯示當客戶具有sim信用卡時,購買機率較高。然而在延伸其結(jié)論前,我們需要驗證其統(tǒng)計顯著性。 = = =0.4099e -0.36451+e y=e -2.1464 +0.3416(2)+1.0987(1)1+e -2.1464 +0.3416(2)+1.0987(
52、1) -0.36450.69451.6945 = Logistic Regression TablePredictor Coef SE Coef Z P Ratio Lower UpperConstant -2.1464 0.5772 -3.72 0.000Spending 0.3416 0.1287 2.66 0.008 1.41 1.09 1.81Card 1.0987 0.4447 2.47 0.013 3.00 1.25 7.17Log-Likelihood=-60.487Test that all slopes are zero :G=13.628, DF=2, P-Value=0.
53、001圖15.13 以Sim百貨為例的部分羅吉斯迴歸報表Odds 95%CILogistic Regression TablePredi顯著性檢定 利用G檢定統(tǒng)計值來檢視總體顯著性。如果虛無假設(shè)為真,則G的樣本分配可依據(jù)卡方分配,其以如果虛無假設(shè)為真,則G的樣本分配可依據(jù)卡方分配,其自由度等於模型中自變數(shù)的個數(shù)。 參考圖15.13,我們可以看見G值為13.628,自由度為2,p值為0.001。因此在任何的顯著水準0.001下,拒絕虛無假設(shè)和推論總體模式是顯著的結(jié)論。H0:1=2=0Ha:至少有一個參數(shù)不為0顯著性檢定H0:1=2=0顯著性檢定 利用Z檢定用來判斷在總體模式顯著的情況下各別自變數(shù)
54、是否顯著。 如果虛無假設(shè)為真,估計係數(shù)值以除以其標準誤來產(chǎn)生一標準常態(tài)機率分配。H0:i=0Ha:i0顯著性檢定 利用Z檢定用來判斷在總體模式顯著的情況下各別 假設(shè)在=0.05下檢驗Sim模型自變數(shù)的顯著性。自變數(shù)x1的Z值為2.66而對應(yīng)的p值為0.008。因此在=0.05的顯著水準下,拒絕H0:1=0。 在相同形式下,我們也拒絕H0:2=0。因為對應(yīng)Z值為2.47的p值為0.013 。因此在=0.05的顯著水準下,兩自變數(shù)都是顯著的。 假設(shè)在=0.05下檢驗Sim模型自變數(shù)的顯著性。自變管理上的使用 我們已算出P(y=1|x1=2,x2=1)=0.4099和P(y=1|x1=2,x2=0)
55、=0.1880 ,這些機率指出,每年消費$2000的顧客如擁有Sim信用卡將增加使用折價券的機會。 表15.12顯示年度開銷從$1000到7000,有或沒有Sim信用卡的顧客之估計機率。 管理上的使用 我們已算出P(y=1|x1=2,x2=1)表15.12 Sim百貨估計機率值年度開銷信用卡 $1000 $2000 $3000 $4000 $5000 $6000 $7000 有 0.3305 0.4099 0.4943 0.5790 0.6593 0.7314 0.7931無 0.1413 0.1880 0.2457 0.3143 0.3921 0.4758 0.5609 表15.12 Sim
56、百貨估計機率值年度開銷信用卡 在表15.12估計的機率值中,以下為促銷策略具有Sim信用卡的顧客:寄給去年消費超過$2000的每位顧客沒有Sim信用卡的顧客:寄給去年消費超過$6000的每位顧客 沒有Sim信用卡而會消費的顧客,年度開銷為$5000的機率為0.3921 。因此, Sim公司或許會修正其策略將去年消費超過$5000但無Sim信用卡的顧客也包括在內(nèi)。 在表15.12估計的機率值中,以下為促銷策略解釋羅吉斯迴歸方程式 有利於事件發(fā)生的勝算(odds in favor of event occurring)定義為事件發(fā)生的機率除以事件未發(fā)生的機率。在羅吉斯迴歸的事件中y永遠等於1。 給定自變數(shù)一特殊集合值,有利於y=1的勝算計算如下:勝算=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 義務(wù)兵退役申請書
- 蘇州吳中區(qū)2025年租賃公寓管理服務(wù)合同
- 2025年度雜糧產(chǎn)業(yè)大數(shù)據(jù)分析與應(yīng)用合同
- 2025年度建筑勞務(wù)合作與施工安全協(xié)議
- 2025年度事業(yè)單位編制合同工年度考核與晉升合同
- 變更登記申請書
- 2025年度土方運輸車租賃與綠色施工管理合同
- 2025年度幼兒入園安全保障服務(wù)合同
- 教室使用申請書
- 2025年度數(shù)據(jù)中心土地租賃合同續(xù)約
- 酒店長包房租賃協(xié)議書范本
- 2 找春天 公開課一等獎創(chuàng)新教學設(shè)計
- 2025年江蘇護理職業(yè)學院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 2025年江蘇南京水務(wù)集團有限公司招聘筆試參考題庫含答案解析
- 【道法】開學第一課 課件-2024-2025學年統(tǒng)編版道德與法治七年級下冊
- 建筑工程施工安全管理課件
- 2025年春新外研版(三起)英語三年級下冊課件 Unit2第1課時Startup
- 2025年上半年畢節(jié)市威寧自治縣事業(yè)單位招考考試(443名)易考易錯模擬試題(共500題)試卷后附參考答案
- 處方點評知識培訓
- 人教版(2024)英語七年級上冊單詞表
- 2024年江西電力職業(yè)技術(shù)學院單招職業(yè)技能測試題庫及答案解析
評論
0/150
提交評論