多元回歸分析_第1頁(yè)
多元回歸分析_第2頁(yè)
多元回歸分析_第3頁(yè)
多元回歸分析_第4頁(yè)
多元回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第八章 SPSS的相關(guān)分析和回歸分析(三)1多元線性回歸分析多元線性回歸分析的主要問題回歸方程的檢驗(yàn)自變量篩選多重共線性問題2多元線性回歸分析應(yīng)用舉例根據(jù)10個(gè)市場(chǎng)區(qū)在特定周內(nèi)某產(chǎn)品的銷售額、廣告費(fèi)、人口密度數(shù)據(jù),建立銷售額的預(yù)測(cè)模型3多元線性回歸分析操作(1)菜單選項(xiàng): analyze-regression-linear(2)選擇一個(gè)變量為因變量進(jìn)入dependent框(3)選擇一個(gè)或多個(gè)變量為自變量進(jìn)入independent框(4)選擇多元回歸分析的自變量篩選方法:enter:所選變量全部進(jìn)入回歸方程(默認(rèn)方法)remove:從回歸方程中剔除變量stepwise:逐步篩選;backward

2、:向后篩選;forward:向前篩選(5)對(duì)樣本進(jìn)行篩選(selection variable)利用滿足一定條件的樣本數(shù)據(jù)進(jìn)行回歸分析(6)指定作圖時(shí)各數(shù)據(jù)點(diǎn)的標(biāo)志變量(case labels)4多元線性回歸方程的檢驗(yàn)(一)擬和優(yōu)度檢驗(yàn):(1)判定系數(shù)R2: R是y和xi的復(fù)相關(guān)系數(shù)(或觀察值與預(yù)測(cè)值的相關(guān)系數(shù)),測(cè)定了因變量y與所有自變量全體之間線性相關(guān)程度 (2)調(diào)整的R2:考慮的是平均的剩余平方和,克服了因自變量增加而造成R2也增大的弱點(diǎn)在某個(gè)自變量引入回歸方程后,如果該自變量是理想的且對(duì)因變量變差的解釋說明是有意義的,那么必然使得均方誤差減少,從而使調(diào)整的R2得到提高;反之,如果某個(gè)自

3、變量對(duì)因變量的解釋說明沒有意義,那么引入它不會(huì)造成均方誤差減少,從而調(diào)整的R2也不會(huì)提高。5多元線性回歸方程的檢驗(yàn)(二)回歸方程的顯著性檢驗(yàn):(1)目的:檢驗(yàn)所有自變量與因變量之間的線性關(guān)系是否顯著,是否可用線性模型來表示.(2)H0: 1 = 2 = k =0 即:所有回歸系數(shù)同時(shí)與0無顯著差異(3)利用F檢驗(yàn),構(gòu)造F統(tǒng)計(jì)量:F=平均的回歸平方和/平均的剩余平方和F(k,n-k-1)如果F值較大,則說明自變量造成的因變量的線性變動(dòng)大于隨機(jī)因素對(duì)因變量的影響,自變量于因變量之間的線性關(guān)系較顯著(4)計(jì)算F統(tǒng)計(jì)量的值和相伴概率p(5)判斷p=a:拒絕H0,即:所有回歸系數(shù)與0有顯著差異,自變量與

4、因變量之間存在顯著的線性關(guān)系。反之,不能拒絕H06多元線性回歸方程的檢驗(yàn)(三)回歸系數(shù)的顯著性檢驗(yàn)(1)目的:檢驗(yàn)每個(gè)自變量對(duì)因變量的線性影響是否顯著.(2)H0:i=0 即:第i個(gè)回歸系數(shù)與0無顯著差異(3)利用t檢驗(yàn),構(gòu)造t統(tǒng)計(jì)量:其中:Sy是回歸方程標(biāo)準(zhǔn)誤差(Standard Error)的估計(jì)值,由均方誤差開方后得到,反映了回歸方程無法解釋樣本數(shù)據(jù)點(diǎn)的程度或偏離樣本數(shù)據(jù)點(diǎn)的程度如果某個(gè)回歸系數(shù)的標(biāo)準(zhǔn)誤差較小,必然得到一個(gè)相對(duì)較大的t值,表明該自變量xi解釋因變量線性變化的能力較強(qiáng)。(4)逐個(gè)計(jì)算t統(tǒng)計(jì)量的值和相伴概率p (5)判斷7多元線性回歸分析應(yīng)用舉例根據(jù)若干年國(guó)民收入和其他相關(guān)數(shù)

5、據(jù),對(duì)國(guó)民收入的影響因素進(jìn)行分析8多元線性回歸分析中的自變量篩選(一)自變量篩選的目的多元回歸分析引入多個(gè)自變量. 如果引入的自變量個(gè)數(shù)較少,則不能很好的說明因變量的變化;并非自變量引入越多越好.原因:有些自變量可能對(duì)因變量的解釋沒有貢獻(xiàn)自變量間可能存在較強(qiáng)的線性關(guān)系,即:多重共線性. 因而不能全部引入回歸方程.9多元線性回歸分析中的自變量篩選(二)自變量向前篩選法(forward):即:自變量不斷進(jìn)入回歸方程的過程.首先,選擇與因變量具有最高相關(guān)系數(shù)的自變量進(jìn)入方程,并進(jìn)行各種檢驗(yàn);其次,在剩余的自變量中尋找偏相關(guān)系數(shù)最高的變量進(jìn)入回歸方程,并進(jìn)行檢驗(yàn);默認(rèn):回歸系數(shù)檢驗(yàn)的概率值小于PIN(

6、0.05)才可以進(jìn)入方程.反復(fù)上述步驟,直到?jīng)]有可進(jìn)入方程的自變量為止.10多元線性回歸分析中的自變量篩選(三)自變量向后篩選法(backward):即:自變量不斷剔除出回歸方程的過程.首先,將所有自變量全部引入回歸方程;其次,在一個(gè)或多個(gè)t值不顯著的自變量中將t值最小的那個(gè)變量剔除出去,并重新擬和方程和進(jìn)行檢驗(yàn);默認(rèn):回歸系數(shù)檢驗(yàn)值大于POUT(0.10),則剔除出方程如果新方程中所有變量的回歸系數(shù)t值都是顯著的,則變量篩選過程結(jié)束.否則,重復(fù)上述過程,直到無變量可剔除為止.11多元線性回歸分析中的自變量篩選(四)自變量逐步篩選法(stepwise):即:是“向前法”和“向后法”的結(jié)合。向前

7、法只對(duì)進(jìn)入方程的變量的回歸系數(shù)進(jìn)行顯著性檢驗(yàn),而對(duì)已經(jīng)進(jìn)入方程的其他變量的回歸系數(shù)不再進(jìn)行顯著性檢驗(yàn),即:變量一旦進(jìn)入方程就不回被剔除隨著變量的逐個(gè)引進(jìn),由于變量之間存在著一定程度的相關(guān)性,使得已經(jīng)進(jìn)入方程的變量其回歸系數(shù)不再顯著,因此會(huì)造成最后的回歸方程可能包含不顯著的變量。逐步篩選法則在變量的每一個(gè)階段都考慮的剔除一個(gè)變量的可能性。12SPSS操作:options選項(xiàng):stepping method criteria:逐步篩選法參數(shù)設(shè)置.use probability of F:以F值相伴概率作為變量進(jìn)入和剔除方程的標(biāo)準(zhǔn).一個(gè)變量的F值顯著性水平小于entry(0.05)則進(jìn)入方程;大于r

8、emoval(0.1)則剔除出方程.因此:Entryremovaluse F value:以F值作為變量進(jìn)入(3.84)和剔除(2.71)方程的標(biāo)準(zhǔn)多元線性回歸分析中的自變量篩選13多元線性回歸中的共線性檢測(cè)(一)共線性帶來的主要問題高度的多重共線會(huì)使回歸系數(shù)的標(biāo)準(zhǔn)差隨自變量相關(guān)性的增大而增大,至使回歸系數(shù)的置信區(qū)間不斷增大,造成估計(jì)值精度減低.有時(shí)表現(xiàn)出符號(hào)與實(shí)際情況不符。(二)共線性診斷自變量的容忍度(tolerance)和方差膨脹因子容忍度:Toli=1-Ri2. 其中: Ri2是自變量xi與方程中其他自變量間的復(fù)相關(guān)系數(shù)的平方.容忍度越大則與方程中其他自變量的共線性越低,應(yīng)進(jìn)入方程.

9、(具有太小容忍度的變量不應(yīng)進(jìn)入方程,spss會(huì)給出警)(T0.1一般認(rèn)為具有多重共線性)方差膨脹因子(VIF):容忍度的倒數(shù)SPSS在回歸方程建立過程中不斷計(jì)算待進(jìn)入方程自變量的容忍度,并顯示目前的最小容忍度14多元線性回歸中的共線性檢測(cè)用特征根刻畫自變量的方差如果自變量間確實(shí)存在較強(qiáng)的相關(guān)關(guān)系,那么它們之間必然存在信息重疊,于是可從這些自變量中提取出既能反映自變量信息(方差)又相互獨(dú)立的因素(成分)來.從自變量的相關(guān)系數(shù)矩陣出發(fā),計(jì)算相關(guān)系數(shù)矩陣的特征根,得到相應(yīng)的若干成分.如果某個(gè)特征根既能夠刻畫某個(gè)自變量方差的較大部分比例(如大于0.7),同時(shí)又可以刻畫另一個(gè)自變量方差的較大部分比例,則

10、表明這兩個(gè)自變量間存在較強(qiáng)的多重共線性。條件指標(biāo)0k10 無多重共線性; 10=k=100 嚴(yán)重SPSS操作 Statistics選項(xiàng)中的Collinearity dignostics15模型診斷模型可靠性的診斷模型是否對(duì)后續(xù)的樣本具有較好的預(yù)測(cè)性?是否存在過度擬和(overfitting)現(xiàn)象模型不僅反映了樣本數(shù)據(jù)的信息,同時(shí)也包含了樣本中的“噪音”,可能是一種非“一般化”的模型。表現(xiàn)出對(duì)樣本有較高的擬和,但預(yù)測(cè)能力不高“機(jī)會(huì)”也會(huì)給擬和優(yōu)度帶來貢獻(xiàn)例如:產(chǎn)生若干個(gè)正態(tài)分布的隨機(jī)數(shù)作為x,一個(gè)作為y。根本不相關(guān)的數(shù)據(jù)也可以有較好的擬和。16模型診斷交叉驗(yàn)證法(Cross- validatio

11、n)訓(xùn)練集和檢驗(yàn)集:當(dāng)樣本量較小時(shí),訓(xùn)練樣本比例可較高;反之。計(jì)算交叉診斷的收縮值通常大于0.9則可靠性差,小于0.1可靠性強(qiáng)SPSS的操作Save選項(xiàng)中的Predictive ValuesTransform中的Compute菜單例如:對(duì)隨機(jī)的數(shù)據(jù)進(jìn)行模擬17模型診斷Jackknife 驗(yàn)證法(Jackknife validation)適用于樣本量不是很大時(shí)利用n-1個(gè)樣本進(jìn)行參數(shù)估計(jì),并根據(jù)所估計(jì)的參數(shù)計(jì)算剩余1個(gè)樣本的預(yù)測(cè)值計(jì)算擬和優(yōu)度,并與利用全部樣本時(shí)的擬和優(yōu)度進(jìn)行比較。如果擬和優(yōu)度降低,則說明該擬和優(yōu)度可能是更客觀的,原本的高擬和可能是“機(jī)會(huì)”引起的18多元回歸分析中注意的問題個(gè)案獨(dú)

12、立性限制例如:研究學(xué)生成績(jī)與所在地區(qū)經(jīng)濟(jì)之間的關(guān)系數(shù)據(jù)情況:學(xué)號(hào) 成績(jī) 所在學(xué)校 學(xué)校所在地區(qū) 地區(qū)經(jīng)濟(jì)指標(biāo)計(jì)量經(jīng)濟(jì)中多元回歸中的自變量的角色:觀測(cè)變量與控制變量例如:分析收入對(duì)消費(fèi)的影響時(shí),控制變量年齡、性別、受教育程度例如:外國(guó)投資對(duì)環(huán)境的影響以及檢驗(yàn)庫(kù)茲涅茲曲線(各省市數(shù)據(jù))二氧化碳排放量、外國(guó)直接投資額、人均GDP、人均GDP2、面積、產(chǎn)業(yè)結(jié)構(gòu)19含虛擬自變量的回歸分析工齡、職位和學(xué)歷對(duì)工資收入的影響特點(diǎn):自變量中含定性變量.方法:采用取值為0或1的虛擬變量在模型中引入多個(gè)虛擬變量時(shí),虛擬變量的個(gè)數(shù)應(yīng)按下列原則來確定:對(duì)于包含一個(gè)具有m 種特征或狀態(tài)的定性變量的回歸模型,如果回歸模型不

13、帶常數(shù)項(xiàng),則中需引入m 個(gè)虛擬變量;如果有常數(shù)項(xiàng),則只需引入m-1 個(gè)虛擬變量20多元線性回歸分析應(yīng)用舉例分析工齡和職位對(duì)工資收入的影響特點(diǎn):包含一個(gè)定性變量,且只有兩種分類或狀態(tài)建立的模型為由于D只有1、0兩種取值,則模型可以為:部門經(jīng)理其他人員兩組的均值差,但在控制工齡的條件下21多元線性回歸分析應(yīng)用舉例分析職位、工齡對(duì)工資收入的影響分析工齡和職位之間是否有交互影響建立的模型為由于D只有1、0兩種取值,則模型可以為:部門經(jīng)理其他人員22多元線性回歸分析應(yīng)用舉例分析工齡和學(xué)歷以及工齡、學(xué)歷、職位對(duì)工資收入的影響利用SPSS的Block功能嘗試同時(shí)建立多個(gè)方程23曲線估計(jì)(curve esti

14、mate)(一)目的: 在一元回歸分析或時(shí)間序列中,因變量與自變量(時(shí)間)之間的關(guān)系不呈線性關(guān)系,但通過適當(dāng)處理,可以轉(zhuǎn)化為線性模型.可進(jìn)行曲線估計(jì).(二)曲線估計(jì)的常用模型:y=b0+b1t(線性擬和linear)y=b0+b1t+b2t2(二次曲線quadratic)y=b0+b1t+b2t2+b3t3(三次曲線cubic)t為時(shí)間,也可為某一自變量.24曲線估計(jì)(curve estimate)(三)基本操作步驟(1)繪制散點(diǎn)圖,觀察并確定模型.(2)菜單選項(xiàng): analyze-regression-curve estimation(3) 選擇因變量到dependent框(4) 選擇自變量到independent框或選time以時(shí)間作自變量(5)選擇模型 (R2最高擬和效果最好)25曲線估計(jì)(curve estimate)(四)其他選項(xiàng)(1)display ANOVA table:方差分析表(2)plot models:繪制觀察值和預(yù)測(cè)值的對(duì)比圖.(3)save選項(xiàng):predicted values:保存預(yù)測(cè)值.Residual:保存殘差值.pre

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論