多元線性回歸_第1頁(yè)
多元線性回歸_第2頁(yè)
多元線性回歸_第3頁(yè)
多元線性回歸_第4頁(yè)
多元線性回歸_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第二節(jié)多元線性回歸在許多實(shí)際問(wèn)題中,常常會(huì)遇到要研究一個(gè)隨機(jī)變量與多個(gè)變量之間的相 關(guān)關(guān)系,例如,某種產(chǎn)品的銷(xiāo)售額不僅受到投入的廣告費(fèi)用的影響,通常還與產(chǎn)品的價(jià)格、消費(fèi)者的收入狀況以及其它可替代產(chǎn)品的價(jià)格等諸多因素有關(guān)系.研究這種一個(gè)隨機(jī)變量同其他多個(gè)變量之間的關(guān)系的主要方法是運(yùn)用多元回歸分 析.多元線性回歸分析是一元線性回歸分析的自然推廣形式,兩者在參數(shù)估計(jì)、 顯著性檢驗(yàn)等方面非常相似.本節(jié)只簡(jiǎn)單介紹多元線性回歸的數(shù)學(xué)模型及其最 小二乘估計(jì).一、多元線性回歸模型設(shè)影響因變量Y的自變量個(gè)數(shù)為P,并分別記為Xi,X2,,Xp所謂多元線性模 p p,型是指這些自變量對(duì)Y的影響是線性的,即Y 0 1

2、X12X2pXp,N(0, 2)其中0,1,2,p ,2是與Xi,X2, ,Xp無(wú)關(guān)的未知參數(shù),稱(chēng) Y為對(duì)自變量X1,X2, ,Xp,的線性回歸函數(shù)記n組樣本分別是優(yōu)1,為2, Xip , yi ) (i1,2, ,n),則有yi01X112 X12p X1p1y201X212 X22p X2 p2,y n01Xn12 Xn 2p Xnpn其中1, 2, , n相互獨(dú)立,且i -N(0, 2),i 1,2, ,n ,這個(gè)模型稱(chēng)為多元線性回歸的數(shù)學(xué)模型.令y11X11X12X1 p01Y = y2 , X = 1X21X22X2 p12yn1Xn1Xn2Xnppn則上述數(shù)學(xué)模型可用矩陣形式表示為

3、 YXX稱(chēng)為設(shè)計(jì)矩陣或資料矩陣。其中 是n維隨機(jī)向量,它的分量相互獨(dú)立。二、多元線性回歸模型的基本假定.解釋變量是確定性的變量,不是隨機(jī)變量,設(shè)計(jì)矩陣中要求列向量不能有密切 的線性相關(guān)性,也稱(chēng)為 多重共線性;.隨機(jī)誤差項(xiàng)具有0均值和同方差,且隨機(jī)誤差項(xiàng)相互獨(dú)立,即:E( i) 0 i 1,2, n 2./、icov( i, j)0 i j.正態(tài)分布條件:N(0, 2I),其中I表示單位矩陣。三、回歸參數(shù)的最小二乘估計(jì)(OLSE與一元線性回歸類(lèi)似,我們采用最小二乘法估計(jì)參數(shù)0, 1, 2,p ,引入偏差平方和n2Q( 0, 1, , p)= (yi01xi1 2xi2pxip)i 1最小二乘估計(jì)

4、就是求=(0, 1, , p)T ,使得min Q( 0, 1, p) =Q( 0, 1, p)因?yàn)镼( 0, 1, , p)是0, 1, , p的非負(fù)二次型,故其最小值一定存在。根據(jù)多元微積分的極值原理,令n2(yii 1n2(yii 101xi101Xi1p xip )0pxip)xij0j 1,2, p.上述方程組稱(chēng)為 正規(guī)方程組,可用矩陣表示為XTXXTY在系數(shù)矩陣XTX滿(mǎn)秩的條件下,可解得 (XTX) 1XTY就是的最小二乘估計(jì),即為回歸方程y 01x1pxp的回歸系數(shù).可以進(jìn)一步給出的分布參數(shù),N(0, 2I),2的無(wú)偏估計(jì)為?2(詳細(xì)過(guò)程略)注:S2殘稱(chēng)為殘差平方和與前面提到的S

5、2E剩余平方和相同,即隨機(jī)項(xiàng)的平方和四、回歸方程顯著性檢驗(yàn) 這里介紹兩種方法:一是擬合優(yōu)度檢驗(yàn);二是 F檢驗(yàn).擬合優(yōu)度檢驗(yàn)就是檢驗(yàn)回歸方程對(duì)樣本觀測(cè)值的擬合程度。y 01x1pXp,匕是地i個(gè)樣本點(diǎn)(xM,Xi2,L Xp)上的回歸值。類(lèi)似一元線n其中 S6(y y)2i 1nsSr(? y)2i 1nSSe(yi ?)2i 1性回歸分析中nn總偏差平方和(? y)2(yi ?)2 ssr ssei 1i 1回歸平方和剩余平方和(或殘差平方和)SSr S& SSe ,其中SSr反映了自變量x的變化所引起的y的波動(dòng),而SSe反 映測(cè)量誤差及隨機(jī)因素對(duì)y的影響,由SSr和SSe的意義可知,一個(gè)好的

6、回歸方 程,它應(yīng)該較好的擬合樣本觀測(cè)值??偟柠u差壬方不比SS生回歸平方和.SSR所占 的比例越大,則回歸效果越好;殘差平方和SSe所占的比例越大,則效果越不好。 于是也定義二r2 sSr/sSt, r TSSRaSST.前者稱(chēng)為樣本決定系數(shù),.后者稱(chēng)為一 y.關(guān).于樣本復(fù)相關(guān)系數(shù)一,-如果叫歸方程完全擬合了樣本,一.則樣本訣定系數(shù)為.1,. 而這又是二種極端的情況,一在.實(shí).際問(wèn)題中不也能發(fā)生,.但R2越接近于. 1.,.擬合效 果越高.。但是這種方法有可能出現(xiàn)虛假現(xiàn)象.一:.R2.的大小還跟樣本的個(gè)一數(shù)有關(guān),. 當(dāng)桂.本個(gè)數(shù)與巨變量的個(gè).數(shù)接近時(shí),決定系數(shù)易接近與一1.。所以使川時(shí).要謹(jǐn)慎便

7、. 用。. F檢驗(yàn):對(duì)回歸方程的顯著性檢驗(yàn),就是要看自變量 X1,X2, ,Xp從整體上對(duì)隨機(jī)變量y是否有明顯的影響。為此,可提出假設(shè)Ho : 01 L p 0,如果接受假設(shè),則表明回歸方程不合適。類(lèi)似一元線性回歸方程檢驗(yàn),可建立F統(tǒng)計(jì)量,nn(夕 y)2(yi ?i)2 hoF i1d F(p,n p 1)pn p 1若F F (p,n p 1),則拒絕假設(shè),方程顯著;否則接受假設(shè),方程不顯著,在進(jìn)行調(diào)整分析,一般考慮實(shí)際問(wèn)題是否滿(mǎn)足回歸假設(shè)條件。五、回歸系數(shù)顯著性檢驗(yàn).回歸系數(shù)顯著性檢驗(yàn)在多元線性回歸分析中,回歸方程顯著并不意味著每個(gè)自變量對(duì) y的影響都 顯著,因此有必要剔除那些次要的變量

8、, 重新建立更為簡(jiǎn)單的回歸模型, 所以就 要我們對(duì)每個(gè)自變量進(jìn)行顯著性檢驗(yàn)。 不難理解,檢驗(yàn)變量為是否顯著,等價(jià)于 檢驗(yàn)假設(shè)Ho: i 0 i 1,2,L ,p,如果接受假設(shè),則為不顯著;拒絕則為是顯著的。在假設(shè)條件下,可采用統(tǒng)計(jì)量?2/c ,?/.:c-F c或t一”一 ,其中5是矩陣(XTX) 1對(duì)角線上第i個(gè)Se/(n p 1)Se / n p 1元素。后面將會(huì)以實(shí)例說(shuō)明方法,一般原則是每次只剔除一個(gè)變量,先剔除其中F值最 小的變量,然后在利用 OLSEf法得到新的回歸方程,再進(jìn)行檢驗(yàn),有不顯著的 剔除,直到到保留變量對(duì)y的影響都顯著為止。.偏相關(guān)系數(shù)在多元線性回歸分析中,其他變量被固定

9、后,給定的任意兩個(gè)變量之間的相 關(guān)系數(shù),叫偏相關(guān)系數(shù)。偏相關(guān)系數(shù)可以度量任意兩個(gè)變量的線性相關(guān)性。計(jì)算 公式如下: TOC o 1-5 h z (XliXi)(XliXj)rrji. j 1,L , pl 1 nn(Xi Xi)2(XliXj)2l 1l 1在實(shí)際應(yīng)用中,我們認(rèn)為偏相關(guān)系數(shù)才是真正反映因變量 y與自變量x以及為和Xj的相關(guān)性質(zhì)的量。根據(jù)偏相關(guān)系數(shù)可以判斷哪些變量對(duì) y的影響較大,因而選擇作為必須考慮的自變量,而對(duì)于哪些影響小的變量可以舍去, 所以剔除變 量時(shí)可以結(jié)合偏相關(guān)系數(shù)討論。.回歸系數(shù)的置信區(qū)問(wèn)有時(shí)我們不僅要知道系數(shù)的估計(jì)量?,還要知道的與?接近程度如何,? TOC o

10、1-5 h z 這就是要進(jìn)行置信區(qū)間的求解。有結(jié)論t一: t(n p 1),S?為?的標(biāo)準(zhǔn)差。 S?i在給定的顯著水平 下,有置信區(qū)間(? t (n p 1)gS? , ? t (n p 1)gS?), -ii22一一求解即可。.關(guān)于標(biāo)準(zhǔn)化回歸系數(shù)在多元線性回歸方程描述某種經(jīng)濟(jì)現(xiàn)象時(shí),由于Xi,X2,,Xp所以單位大都不相同,數(shù)據(jù)的大小差異也比較大,這就不利于放在同一標(biāo)準(zhǔn)上進(jìn)行比較。為了消除量綱的影響,就需要將樣本數(shù)據(jù)標(biāo)準(zhǔn)化處理,然后用最小二乘法估計(jì)未知參數(shù), 得到彳是比較自變量對(duì)y影響相對(duì)重要性的一種較為理想的方法。如何標(biāo)準(zhǔn)化 這里就不詳細(xì)說(shuō)明了。有了標(biāo)準(zhǔn)化回歸系數(shù),變量的相對(duì)重要性就容易進(jìn)

11、行比較 了。.多元回歸分析數(shù)據(jù)的定義:一般說(shuō)來(lái),多元統(tǒng)計(jì)數(shù)據(jù)分析處理的都是截面樣本數(shù)據(jù),即樣本點(diǎn) *變量類(lèi) 型的平面數(shù)據(jù)表。一張平面數(shù)據(jù)表也可以被看成一個(gè) n*p的數(shù)據(jù)矩陣,數(shù)據(jù)矩陣 的每一行代表一個(gè)樣本點(diǎn),而每一個(gè)樣本點(diǎn)均用p個(gè)特征指標(biāo)來(lái)描述,這些特性 指標(biāo)又稱(chēng)為變量。見(jiàn)下表:樣本號(hào)身高體重年齡性別職業(yè)喜好色調(diào)體質(zhì)11665631女工人紅好21686045女綠中31736738男工人藍(lán)差41756242男紅中51695950男工人藍(lán)差表中看出,身高,體重,年齡均可以作為定量變量,而性別,職業(yè),色調(diào)及體質(zhì) 都是定性變量。顯然,在數(shù)據(jù)分析和計(jì)算中,我們用的都是實(shí)數(shù)。而定量變量都 有數(shù)值,所以不用

12、處理,這里關(guān)鍵是定性變量如何處理,可以參與運(yùn)算。為了解決這個(gè)問(wèn)題,我們?cè)侔讯ㄐ宰兞考?xì)分一下,分為順序變量和名義變量這里體質(zhì)即為順序變量,因?yàn)槊黠@有變量取值有大小順序。所以可以用實(shí)數(shù)給定來(lái)表示。那么剩下的性別、職業(yè)和色調(diào)都屬于名義變量,取值沒(méi)有大小關(guān)系。而 其中性別和職業(yè)都只有兩個(gè)狀態(tài),所以可以用示性函數(shù)來(lái)表示,X51man ,X619anbU o最后解決色調(diào)是關(guān)鍵,它有三個(gè)狀態(tài),0woman0gongren顯然一個(gè)示性函數(shù)是不能解決的,需要幾個(gè)。這里可以這樣操作:人 1 red1 green令X7, X,X7 1,X8 0表小紅,X7 0,x8 1表小綠,0 no0 noX7 0,X8 0表示

13、藍(lán)。這樣樣本點(diǎn)的信息就都可以轉(zhuǎn)化成數(shù)據(jù)了,如第一樣本的信息為一個(gè)向量X1=166,56,31,3,0,010,相應(yīng)的可以得到一個(gè)線性回歸表達(dá)式:01X12X23X34X45X56X67X78X8第三節(jié)逐步回歸分析在建立一個(gè)經(jīng)濟(jì)問(wèn)題的數(shù)學(xué)回歸模型時(shí),我們首先碰到的問(wèn)題就是如何確定 回歸自變量,一般情況下,我們都是根據(jù)所研究問(wèn)題的目的, 結(jié)合經(jīng)濟(jì)理論羅列 處對(duì)因變量影響的一些因素作為變量。 如果我們漏掉了一些變量,回歸效果肯定 不好;如果我們擔(dān)心漏掉變量,而考慮過(guò)多的變量,這樣有可能出現(xiàn)變量重疊的 現(xiàn)象,從而影響模型效果。而且過(guò)多的變量也給計(jì)算帶來(lái)很大的麻煩,為此,人 們提出了一些較為簡(jiǎn)便、實(shí)用、

14、快速的選擇最優(yōu)方程的方法,但至今沒(méi)有一 種方法是絕對(duì)最優(yōu)的,常用的方法主要有前進(jìn)法、后退法、逐步回歸, 其中逐步回歸最受推崇。逐步回歸分析中引入某個(gè)變量或剔除某個(gè)自變量都是看自變量對(duì)因變量y的顯著性大小。偏回歸平方和(簡(jiǎn)記為PRSS是對(duì)自變量Xj顯著性的一個(gè)重要度量。下面先給出偏回歸平方和的概念。 ns回(9y)2 s總s戔(7.18),其中彳為第j個(gè)自變量前的回歸系數(shù),i 1Sjy為正規(guī)方程組右端的常系數(shù)項(xiàng)。如果 X從這個(gè)自變量中剔除,則回歸平方和n將減少為:% S總S戔(7.19),由于S總(yi y)2為一個(gè)定數(shù),因此由(7.18)i 1減去(7.19), 得& S回S總S戔S總S殘S殘

15、S殘,記ViS殘S殘,就是Xi在這p個(gè)自變量的回歸方程中的貢獻(xiàn),稱(chēng)為自變量.X的偏回歸.平方和,它表示去掉Xi后回歸平方?2和的減少量。V ,,a是矩陣(xTx)1對(duì)角線上第i個(gè)元素。一般用下面記號(hào) Gi?(p) 2表示的偏回歸平方和Vi(p)二 Gi 如果要在回歸方程中刪除不顯著的變量, 則首先應(yīng)從引入變量中剔除對(duì)因變量貢獻(xiàn)最小的。不妨設(shè)為第l個(gè)變量,記V1(p) minVi(p),集合Vi中的元素是已被引入回歸方程的相應(yīng)偏回歸平方和,i是已引入變量的序號(hào)。對(duì)Vi做顯V(p)著性檢驗(yàn):出 (n p 1)57,如果F出F,即在顯著水平 下,統(tǒng)計(jì)量F出小 S戔*于或等于臨界值F ,則應(yīng)從回歸方程中剔除自變量Xi ;如果A F ,則應(yīng)將Xi 繼續(xù)保留在回歸方程中。在引進(jìn)某個(gè)變量時(shí)與上述方法類(lèi)似。 設(shè)Xk為未引入回

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論