多元線性回歸與相關(guān)課件_第1頁
多元線性回歸與相關(guān)課件_第2頁
多元線性回歸與相關(guān)課件_第3頁
多元線性回歸與相關(guān)課件_第4頁
多元線性回歸與相關(guān)課件_第5頁
已閱讀5頁,還剩63頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第10章多元線性回歸與相關(guān)第10章多元線性回歸與相關(guān)1學(xué)習(xí)目標(biāo)熟悉多元線性回歸模型矩陣形式;掌握多元線性回歸模型、參數(shù)估計過程及參數(shù)的解釋,標(biāo)準(zhǔn)化參數(shù)估計值;了解多元線性回歸共線性的診斷問題;理解復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù);掌握多元線性回歸的SAS程序(REG過程以及選項)。熟悉計算偏相關(guān)系數(shù)的SAS程序。學(xué)習(xí)目標(biāo)熟悉多元線性回歸模型矩陣形式;2多元線性回歸與相關(guān)的基礎(chǔ)理論在許多實際問題中,還會遇到一個隨機(jī)變量與多個變量的相關(guān)關(guān)系問題,需要用多元回歸分析的方法來解決。前面介紹的一元回歸分析是其特殊情形。但由于多元回歸分析比較復(fù)雜,在此僅簡要介紹多元線性回歸分析。由于經(jīng)濟(jì)現(xiàn)象的復(fù)雜性,一個被解釋變量往往受多個解釋變量的影響。多元回歸模型就是在方程式中有兩個或兩個以上自變量的線性回歸模型。多元線性回歸預(yù)測是用多元線性回歸模型,對具有線性趨勢的稅收問題,使用多個影響因素所作的預(yù)測。多元線性回歸與相關(guān)的基礎(chǔ)理論在許多實際問題中,還會遇到一個隨3多元線性回歸多元線性回歸分析也稱為復(fù)線性回歸分析,它是一元線性回歸分析或簡單線性回歸分析的推廣,它研究的是一組自變量如何直接影響一個因變量。這里的自變量指的是能獨立自由變化的變量,一般用x表示;因變量y指的是非獨立的、受其它變量影響的變量,一般用y表示。由于多元線性回歸分析(包括一元線性回歸分析)僅涉及到一個因變量,所以有時也稱為單變量線性回歸分析。多元線性回歸多元線性回歸分析也稱為復(fù)線性回歸分析,它是一元4回歸變量的選擇與逐步回歸在實際問題中,人們總是希望從對因變量有影響的諸多變量中選擇一些變量作為自變量,應(yīng)用多元回歸分析的方法建立“最優(yōu)”回歸方程以便對因變量進(jìn)行預(yù)報或控制,這就涉及到自變量選擇的問題。所謂“最優(yōu)”回歸方程,主要是指希望在回歸方程中包含所有對因變量影響顯著的自變量而不包含對影響不顯著的自變量的回歸方程。在回歸方程中若漏掉對Y影響顯著的自變量,那么建立的回歸式用于預(yù)測時將會產(chǎn)生較大的偏差。但回歸方程若包含的變量太多,且其中有些對Y影響不大,顯然這樣的回歸式不僅使用不方便,而且反而會影響預(yù)測的精度。因而選擇合適的變量用于建立一個“最優(yōu)”的回歸方程是十分重要的問題?;貧w變量的選擇與逐步回歸在實際問題中,人們總是希望從對因5回歸變量的選擇與逐步回歸選擇“最優(yōu)”回歸方程的變量篩選法包括逐步回歸法,向前引入法和向后剔除法。向前引入法是從回歸方程僅包括常數(shù)項開始,把自變量逐個引入回歸方程。具體地說,先在m個自變量中選擇一個與因變量線性關(guān)系最密切的變量,記為,然后在剩余的m-1個自變量中,再選一個,使得聯(lián)合起來二元回歸效果最好,第三步在剩下的m-2個自變量中選擇一個變量,使得聯(lián)合起來回歸效果最好,...如此下去,直至得到“最優(yōu)”回歸方程為止?;貧w變量的選擇與逐步回歸選擇“最優(yōu)”回歸方程的變量篩選法包括6回歸變量的選擇與逐步回歸向前引入法中的終止條件為,給定顯著性水平,當(dāng)某一個對將被引入變量的回歸系數(shù)作顯著性檢查時,若p-value≥,則引入變量的過程結(jié)束,所得方程即為“最優(yōu)”回歸方程。向前引入法有一個明顯的缺點,就是由于各自變量可能存在著相互關(guān)系,因此后續(xù)變量的選入可能會使前面已選入的自變量變得不重要。這樣最后得到的“最優(yōu)”回歸方程可包含一些對Y影響不大的自變量。回歸變量的選擇與逐步回歸向前引入法中的終止條件為,給定顯著性7回歸變量的選擇與逐步回歸向后剔除法與向前引入法正好相反,首先將全部m個自變量引入回歸方程,然后逐個剔除對因變量Y作用不顯著的自變量。具體地說,從回歸式m個自變量中選擇一個對Y貢獻(xiàn)最小的自變量,比如,將它從回歸方程中剔除;然后重新計算Y與剩下的m-1個自變量回歸方程,再剔除一個貢獻(xiàn)最小的自變量,比如,依次下去,直到得到“最優(yōu)”回歸方程為止。向后剔除法中終止條件與向前引入法類似。向后剔除法的缺點在于,前面剔除的變量有可能因以后變量的剔除,變?yōu)橄鄬χ匾淖兞?,這樣最后得到的“最優(yōu)”回歸方程中有可能漏掉相對重要的變量?;貧w變量的選擇與逐步回歸向后剔除法與向前引入法正好相反,首先8回歸變量的選擇與逐步回歸逐步回歸法是上述兩個方法的綜合。向前引入中被選入的變量,將一直保留在方程中。向后剔除法中被剔除的變量,將一直排除在外。這兩種方程在某些情況下會得到不合理的結(jié)果。于是,可以考慮到,被選入的的變量,當(dāng)它的作用在新變量引入后變得微不足道時,可以將它刪除;被剔除的變量,當(dāng)它的作用在新變量引入情況下變得重要時,也可將它重新選入回歸方程。這樣一種以向前引入法為主,變量可進(jìn)可出的篩選變量方法,稱為逐步回歸法。回歸變量的選擇與逐步回歸逐步回歸法是上述兩個方法的綜合。向前9回歸變量的選擇與逐步回歸它的主要思路是在考慮的全部自變量中按其對的作用大小,顯著程度大小或者說貢獻(xiàn)大小,由大到小地逐個引入回歸方程,而對那些對作用不顯著的變量可能始終不被引人回歸方程。另外,己被引人回歸方程的變量在引入新變量后也可能失去重要性,而需要從回歸方程中剔除出去。引人一個變量或者從回歸方程中剔除一個變量都稱為逐步回歸的一步,每一步都要進(jìn)行檢驗,以保證在引人新變量前回歸方程中只含有對影響顯著的變量,而不顯著的變量已被剔除。首先給出引入變量的顯著性水平和剔除變量的顯著性水平,然后篩選變量?;貧w變量的選擇與逐步回歸它的主要思路是在考慮的全部自變量中按10回歸變量的選擇與逐步回歸回歸變量的選擇與逐步回歸11回歸變量的選擇與逐步回歸逐步回歸分析的實施過程是每一步都要對已引入回歸方程的變量計算其偏回歸平方和(即貢獻(xiàn)),然后選一個偏回歸平方和最小的變量,在預(yù)先給定的水平下進(jìn)行顯著性檢驗,如果顯著則該變量不必從回歸方程中剔除,這時方程中其它的幾個變量也都不需要剔除(因為其它的幾個變量的偏回歸平方和都大于最小的一個更不需要剔除)。相反,如果不顯著,則該變量要剔除,然后按偏回歸平方和由小到大地依次對方程中其它變量進(jìn)行檢驗。將對影響不顯著的變量全部剔除,保留的都是顯著的。接著再對未引人回歸方程中的變量分別計算其偏回歸平方和,并選其中偏回歸平方和最大的一個變量,同樣在給定水平下作顯著性檢驗,如果顯著則將該變量引入回歸方程,這一過程一直繼續(xù)下去,直到在回歸方程中的變量都不能剔除而又無新變量可以引入時為止,這時逐步回歸過程結(jié)束。回歸變量的選擇與逐步回歸逐步回歸分析的實施過程是每一步都要對12多重共線性回歸分析是一種比較成熟的預(yù)測模型,也是在預(yù)測過程中使用較多的模型,在自然科學(xué)管理科學(xué)和社會經(jīng)濟(jì)中有著非常廣泛的應(yīng)用,但是經(jīng)典的最小二乘估計,必需滿足一些假設(shè)條件,多重共線性就是其中的一種。實際上,解釋變量間完全不相關(guān)的情形是非常少見的,大多數(shù)變量都在某種程度上存在著一定的共線性,而存在著共線性會給模型帶來許多不確定性的結(jié)果。多重共線性回歸分析是一種比較成熟的預(yù)測模型,也是在預(yù)測過程13多重共線性設(shè)回歸模型ε如果矩陣X的列向量存在一組不全為零的數(shù),I=1,2,…n,則稱其存在完全共線性,如果,I=1,2,…n,則稱其存在近似的多重共線性。多重共線性設(shè)回歸模型14多重共線性當(dāng)存在嚴(yán)重的多重共線性時,會給回歸系數(shù)的統(tǒng)計檢驗造成一定的困難,可能造成F檢驗獲得通過,T檢驗卻不能夠通過。在自變量高度相關(guān)的情況下,估計系數(shù)的含義有可能與常識相反。在進(jìn)行預(yù)測時,因為回歸模型的建立是基于樣本數(shù)據(jù)的,多重共線性也是指抽樣的數(shù)據(jù)。如果把建立的回歸模型用于預(yù)測,而多重共線性問題在預(yù)測區(qū)間仍然存在,則共線性問題對預(yù)測結(jié)果不會產(chǎn)生特別嚴(yán)重的影響,但是如果樣本數(shù)據(jù)中的多重共線性發(fā)生了變化則預(yù)測的結(jié)果就不能完全的確定了。多重共線性當(dāng)存在嚴(yán)重的多重共線性時,會給回歸系數(shù)的統(tǒng)計檢驗造15多重共線性檢驗檢查和解決自變量之間的多重共線性,多多元線性回歸分析來說是很必要和重要的一個步驟,常用的共線性診斷方法包括:直觀的判斷方法方差擴(kuò)大因子法(VIF)特征根判定法多重共線性檢驗檢查和解決自變量之間的多重共線性,多多元線性回16直觀的判斷方法在自變量的相關(guān)系數(shù)矩陣中,有某些自變量的相關(guān)系數(shù)值比較大。回歸系數(shù)的符號與專業(yè)知識或一般經(jīng)驗相反對重要的自變量的回歸系數(shù)進(jìn)行t檢驗,其結(jié)果不顯著,但是F檢驗確得到了顯著的通過如果增加一個變量或刪除一個變量,回歸系數(shù)的估計值發(fā)生了很大的變化重要變量的回歸系數(shù)置信區(qū)間明顯過大直觀的判斷方法在自變量的相關(guān)系數(shù)矩陣中,有某些自變量的相關(guān)17方差擴(kuò)大因子法(VIF)一般認(rèn)為如果最大的超過10,常常表示存在多重共線性。事實上>10這說明>0.9。方差擴(kuò)大因子法(VIF)一般認(rèn)為如果最大的超過118特征根判定法根據(jù)矩陣行列式性質(zhì),矩陣行列式的值等于其特征根的連乘積。因此,當(dāng)行列式||≈0時,至少有一個特征根為零,反過來,可以證明矩陣至少有一個特征根近似為零時,X的列向量必存在多重共線性,同樣也可證明有多少個特征根近似為零矩陣X就有多少個多重共線性。根據(jù)條件數(shù),其中為最大的特征根.為其他的特征根,通常認(rèn)為0<k<10,沒有多重共線性,k>10存在著多重共線性。特征根判定法根據(jù)矩陣行列式性質(zhì),矩陣行列式的值等于其特征根的19多重共線性的處理方法增加樣本容量,當(dāng)線性重合是由于測量誤差引起的以及他僅是偶然存在于原始樣本,而不存在于總體時,通過增加樣本容量可以減少或是避免線性重合,但是在現(xiàn)實的生活中,由于受到各種條件的限制增加樣本容量有時又是不現(xiàn)實的剔除一些不重要的解釋變量,主要有向前法和后退法,逐步回歸法。多重共線性的處理方法增加樣本容量,當(dāng)線性重合是由于測量誤差20多重共線性的處理方法前進(jìn)法的主要思想是變量由少到多的,每次增加一個,直至沒有可引入的變量為止。具體做法是首先對一個因變量y和m個自變量分別建立回歸方程,并分別計算這m個回歸方程的F值,選其最大者,記為Fj,,給定顯著性水平F,如果Fj>F,則變量引入該方程,再分別對(Xj,X1),(Xj,X2)…(Xj,Xm)做回歸方程,并對他們進(jìn)行F檢驗,選擇最大的Fi值,如果Fi.>F,則該變量引入方程,重復(fù)上述步驟,直到?jīng)]有變量引入為止。后退法,是先用m個因變量建立回歸方程,然后在這m個變量中選擇一個最不顯著的變量將它從方程中剔除,對m個回歸系數(shù)進(jìn)行F檢驗,記所求得的最小的一個記為Fj,給定一個顯著性的水平,如果Fj<F則將Xj從方程中刪除,重復(fù)上述步驟直到所有不顯著的變量被剔除為止。多重共線性的處理方法前進(jìn)法的主要思想是變量由少到多的,每次增21多重共線性的處理方法逐步回歸法,前進(jìn)法存在著這樣的缺點當(dāng)一個變量被引入方程時,這個變量就被保留在這個方程中了,當(dāng)引入的變量導(dǎo)致其不顯著時,它也不會被刪除掉,后退法同樣存在著這樣的缺點,當(dāng)一個變量被剔除時就永遠(yuǎn)的被排斥在方程以外了,而逐步回歸法克除了兩者的缺點。逐步回歸的思想是有進(jìn)有出。將變量一個一個的引入,每引入一個變量對后面的變量進(jìn)行逐個檢驗,當(dāng)變量由于后面變量的引入而不變的不顯著時將其剔除,進(jìn)行每一步都要進(jìn)行顯著性的檢驗,以保證每一個變量都是顯著的。多重共線性的處理方法逐步回歸法,前進(jìn)法存在著這樣的缺點當(dāng)一個22多重共線性的處理方法主成分法。當(dāng)自變量間有較強(qiáng)的線性相關(guān)性時,利用P個變量的主成分,所具有的性質(zhì),如果他們是互不相關(guān)的,可由前m個主成來建立回歸模型。由原始變量的觀測數(shù)據(jù)計算前m個主成分的的得分值,將其作為主成分的觀測值,建立Y與主成分的回歸模型即得回歸方程。這時P元降為m元,這樣既簡化了回歸方程的結(jié)構(gòu),且消除了變量間相關(guān)性帶來的影響。多重共線性的處理方法主成分法。當(dāng)自變量間有較強(qiáng)的線性相關(guān)性時23復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù)在學(xué)習(xí)一元線性回歸分析時,討論了與之緊密聯(lián)系的一元相關(guān)分析或簡單相關(guān)分析。將這個概念擴(kuò)展到多元,就是多元相關(guān)分析或復(fù)相關(guān)分析。簡單相關(guān)分析研究兩個變量之間的關(guān)聯(lián)性,復(fù)相關(guān)研究多個變量之間的關(guān)聯(lián)性。復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù)在學(xué)習(xí)一元線性回歸分析時,討論了與之24復(fù)相關(guān)系數(shù)復(fù)相關(guān)系數(shù)是指在具有多元相關(guān)關(guān)系的變量中,用來測定因變量y與一組自變量之間相關(guān)程度的指標(biāo)。

復(fù)相關(guān)系數(shù)的計算公式為:復(fù)相關(guān)系數(shù)復(fù)相關(guān)系數(shù)是指在具有多元相關(guān)關(guān)系的變量中,用來測定25偏向關(guān)系數(shù)偏相關(guān)系數(shù)度量了當(dāng)其它變量固定不變時,或者說,消除了其它變量的影響之后,兩個變量之間線性關(guān)聯(lián)的強(qiáng)度。設(shè)有三個變量,如果在三個變量中,剔除的影響,可計算對偏向關(guān)系數(shù),記作,其計算公式為:

偏向關(guān)系數(shù)偏相關(guān)系數(shù)度量了當(dāng)其它變量固定不變時,或者說,消除26偏向關(guān)系數(shù)如果在這三個變量中,剔除的影響,可計算、對偏向關(guān)系數(shù),記作,其計算公式為:偏向關(guān)系數(shù)如果在這三個變量中,剔除的影響,可計算、27偏向關(guān)系數(shù)偏向關(guān)系數(shù)如果在這三個變量中,剔除的影響,可計算、對偏向關(guān)系數(shù),記作,其計算公式為:偏向關(guān)系數(shù)偏向關(guān)系數(shù)如果在這三個變量中,剔除的影響,可28多元相關(guān)分析與多元回歸分析的區(qū)別比較多元相關(guān)分析與多元回歸分析,它們的相同點是都討論了變量之間的關(guān)聯(lián)性。區(qū)別是:①多元回歸分析給出了變量之間的依存關(guān)系,而多元相關(guān)分析卻沒有給出依存關(guān)系;②多元回歸分析要求將變量分為自變量和因變量,而多元相關(guān)分析不要求將變量分為自變量和因變量;③分為自變量和因變量要求因變量服從正態(tài)分布,而多元相關(guān)分析要求所有變量服從正態(tài)分布。多元相關(guān)分析與多元回歸分析的區(qū)別比較多元相關(guān)分析與多元回歸分29多元相關(guān)分析與多元回歸分析的區(qū)別同樣,比較多元相關(guān)分析與多元回歸分析,有三對概念需要加以區(qū)別:回歸系數(shù)和相關(guān)系數(shù);偏回歸系數(shù)和偏相關(guān)系數(shù);確定系數(shù)和復(fù)相關(guān)系數(shù)。多元相關(guān)分析與多元回歸分析的區(qū)別同樣,比較多元相關(guān)分析與多元30本章小節(jié)多元線性回歸分析也稱為復(fù)線性回歸分析,它是一元線性回歸分析或簡單線性回歸分析的推廣,它研究的是一組自變量如何直接影響一個因變量。這里的自變量指的是能獨立自由變化的變量,一般用x表示;因變量y指的是非獨立的、受其它變量影響的變量,一般用y表示。多元線性回歸分析的手段是借助于一個數(shù)學(xué)模型來揭示總體中若干個自變量與一個因變量之間的線性依存關(guān)系,并評估用這一數(shù)學(xué)模型模擬相關(guān)事物變化規(guī)律的準(zhǔn)確性。具體地說,多元線性回歸分析可以從統(tǒng)計意義上確定在消除了其它自變量的影響后,每一個自變量的變化是否引起因變量的變化,并且估計出在其它自變量固定不變的情況下,每個自變量對因變量的數(shù)值影響大小。本章小節(jié)多元線性回歸分析也稱為復(fù)線性回歸分析,它是一元線性31本章小節(jié)對于多元線性回歸分析,要求觀察數(shù)據(jù)和模型的殘差滿足一定的條件,在本章中進(jìn)行了詳細(xì)的描述。詳細(xì)介紹了多元線性回歸模型的參數(shù)估計,包括回歸參數(shù)的最小二乘估計、擬合優(yōu)度檢驗(包括總離差平方和分解、樣本決定系數(shù)和調(diào)整后的樣本決定系數(shù))、模型顯著性檢驗以及參數(shù)顯著性檢驗。本章小節(jié)對于多元線性回歸分析,要求觀察數(shù)據(jù)和模型的殘差滿足一32本章小節(jié)選擇“最優(yōu)”回歸方程的變量篩選法包括逐步回歸法,向前引入法和向后剔除法。多元回歸分析的目的是為了找出一個最優(yōu)的模型,用來解釋和預(yù)測自變量和因變量的依存關(guān)系。但是,要注意的是,所謂的最優(yōu)模型,只是相比較而言。沒有一個絕對的最優(yōu)模型存在。解釋變量間完全不相關(guān)的情形是非常少見的,大多數(shù)變量都在某種程度上存在著一定的共線性,而存在著共線性會給模型帶來許多不確定性的結(jié)果。介紹了常用的共線性診斷方法以及各種處理方法。介紹了復(fù)相關(guān)系數(shù)和偏相關(guān)系數(shù)的定義以及與復(fù)確定系數(shù)和偏回歸系數(shù)的聯(lián)系和區(qū)別。本章小節(jié)選擇“最優(yōu)”回歸方程的變量篩選法包括逐步回歸法,向前33第10章多元線性回歸與相關(guān)課件34第10章多元線性回歸與相關(guān)第10章多元線性回歸與相關(guān)35學(xué)習(xí)目標(biāo)熟悉多元線性回歸模型矩陣形式;掌握多元線性回歸模型、參數(shù)估計過程及參數(shù)的解釋,標(biāo)準(zhǔn)化參數(shù)估計值;了解多元線性回歸共線性的診斷問題;理解復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù);掌握多元線性回歸的SAS程序(REG過程以及選項)。熟悉計算偏相關(guān)系數(shù)的SAS程序。學(xué)習(xí)目標(biāo)熟悉多元線性回歸模型矩陣形式;36多元線性回歸與相關(guān)的基礎(chǔ)理論在許多實際問題中,還會遇到一個隨機(jī)變量與多個變量的相關(guān)關(guān)系問題,需要用多元回歸分析的方法來解決。前面介紹的一元回歸分析是其特殊情形。但由于多元回歸分析比較復(fù)雜,在此僅簡要介紹多元線性回歸分析。由于經(jīng)濟(jì)現(xiàn)象的復(fù)雜性,一個被解釋變量往往受多個解釋變量的影響。多元回歸模型就是在方程式中有兩個或兩個以上自變量的線性回歸模型。多元線性回歸預(yù)測是用多元線性回歸模型,對具有線性趨勢的稅收問題,使用多個影響因素所作的預(yù)測。多元線性回歸與相關(guān)的基礎(chǔ)理論在許多實際問題中,還會遇到一個隨37多元線性回歸多元線性回歸分析也稱為復(fù)線性回歸分析,它是一元線性回歸分析或簡單線性回歸分析的推廣,它研究的是一組自變量如何直接影響一個因變量。這里的自變量指的是能獨立自由變化的變量,一般用x表示;因變量y指的是非獨立的、受其它變量影響的變量,一般用y表示。由于多元線性回歸分析(包括一元線性回歸分析)僅涉及到一個因變量,所以有時也稱為單變量線性回歸分析。多元線性回歸多元線性回歸分析也稱為復(fù)線性回歸分析,它是一元38回歸變量的選擇與逐步回歸在實際問題中,人們總是希望從對因變量有影響的諸多變量中選擇一些變量作為自變量,應(yīng)用多元回歸分析的方法建立“最優(yōu)”回歸方程以便對因變量進(jìn)行預(yù)報或控制,這就涉及到自變量選擇的問題。所謂“最優(yōu)”回歸方程,主要是指希望在回歸方程中包含所有對因變量影響顯著的自變量而不包含對影響不顯著的自變量的回歸方程。在回歸方程中若漏掉對Y影響顯著的自變量,那么建立的回歸式用于預(yù)測時將會產(chǎn)生較大的偏差。但回歸方程若包含的變量太多,且其中有些對Y影響不大,顯然這樣的回歸式不僅使用不方便,而且反而會影響預(yù)測的精度。因而選擇合適的變量用于建立一個“最優(yōu)”的回歸方程是十分重要的問題。回歸變量的選擇與逐步回歸在實際問題中,人們總是希望從對因39回歸變量的選擇與逐步回歸選擇“最優(yōu)”回歸方程的變量篩選法包括逐步回歸法,向前引入法和向后剔除法。向前引入法是從回歸方程僅包括常數(shù)項開始,把自變量逐個引入回歸方程。具體地說,先在m個自變量中選擇一個與因變量線性關(guān)系最密切的變量,記為,然后在剩余的m-1個自變量中,再選一個,使得聯(lián)合起來二元回歸效果最好,第三步在剩下的m-2個自變量中選擇一個變量,使得聯(lián)合起來回歸效果最好,...如此下去,直至得到“最優(yōu)”回歸方程為止?;貧w變量的選擇與逐步回歸選擇“最優(yōu)”回歸方程的變量篩選法包括40回歸變量的選擇與逐步回歸向前引入法中的終止條件為,給定顯著性水平,當(dāng)某一個對將被引入變量的回歸系數(shù)作顯著性檢查時,若p-value≥,則引入變量的過程結(jié)束,所得方程即為“最優(yōu)”回歸方程。向前引入法有一個明顯的缺點,就是由于各自變量可能存在著相互關(guān)系,因此后續(xù)變量的選入可能會使前面已選入的自變量變得不重要。這樣最后得到的“最優(yōu)”回歸方程可包含一些對Y影響不大的自變量?;貧w變量的選擇與逐步回歸向前引入法中的終止條件為,給定顯著性41回歸變量的選擇與逐步回歸向后剔除法與向前引入法正好相反,首先將全部m個自變量引入回歸方程,然后逐個剔除對因變量Y作用不顯著的自變量。具體地說,從回歸式m個自變量中選擇一個對Y貢獻(xiàn)最小的自變量,比如,將它從回歸方程中剔除;然后重新計算Y與剩下的m-1個自變量回歸方程,再剔除一個貢獻(xiàn)最小的自變量,比如,依次下去,直到得到“最優(yōu)”回歸方程為止。向后剔除法中終止條件與向前引入法類似。向后剔除法的缺點在于,前面剔除的變量有可能因以后變量的剔除,變?yōu)橄鄬χ匾淖兞浚@樣最后得到的“最優(yōu)”回歸方程中有可能漏掉相對重要的變量?;貧w變量的選擇與逐步回歸向后剔除法與向前引入法正好相反,首先42回歸變量的選擇與逐步回歸逐步回歸法是上述兩個方法的綜合。向前引入中被選入的變量,將一直保留在方程中。向后剔除法中被剔除的變量,將一直排除在外。這兩種方程在某些情況下會得到不合理的結(jié)果。于是,可以考慮到,被選入的的變量,當(dāng)它的作用在新變量引入后變得微不足道時,可以將它刪除;被剔除的變量,當(dāng)它的作用在新變量引入情況下變得重要時,也可將它重新選入回歸方程。這樣一種以向前引入法為主,變量可進(jìn)可出的篩選變量方法,稱為逐步回歸法?;貧w變量的選擇與逐步回歸逐步回歸法是上述兩個方法的綜合。向前43回歸變量的選擇與逐步回歸它的主要思路是在考慮的全部自變量中按其對的作用大小,顯著程度大小或者說貢獻(xiàn)大小,由大到小地逐個引入回歸方程,而對那些對作用不顯著的變量可能始終不被引人回歸方程。另外,己被引人回歸方程的變量在引入新變量后也可能失去重要性,而需要從回歸方程中剔除出去。引人一個變量或者從回歸方程中剔除一個變量都稱為逐步回歸的一步,每一步都要進(jìn)行檢驗,以保證在引人新變量前回歸方程中只含有對影響顯著的變量,而不顯著的變量已被剔除。首先給出引入變量的顯著性水平和剔除變量的顯著性水平,然后篩選變量。回歸變量的選擇與逐步回歸它的主要思路是在考慮的全部自變量中按44回歸變量的選擇與逐步回歸回歸變量的選擇與逐步回歸45回歸變量的選擇與逐步回歸逐步回歸分析的實施過程是每一步都要對已引入回歸方程的變量計算其偏回歸平方和(即貢獻(xiàn)),然后選一個偏回歸平方和最小的變量,在預(yù)先給定的水平下進(jìn)行顯著性檢驗,如果顯著則該變量不必從回歸方程中剔除,這時方程中其它的幾個變量也都不需要剔除(因為其它的幾個變量的偏回歸平方和都大于最小的一個更不需要剔除)。相反,如果不顯著,則該變量要剔除,然后按偏回歸平方和由小到大地依次對方程中其它變量進(jìn)行檢驗。將對影響不顯著的變量全部剔除,保留的都是顯著的。接著再對未引人回歸方程中的變量分別計算其偏回歸平方和,并選其中偏回歸平方和最大的一個變量,同樣在給定水平下作顯著性檢驗,如果顯著則將該變量引入回歸方程,這一過程一直繼續(xù)下去,直到在回歸方程中的變量都不能剔除而又無新變量可以引入時為止,這時逐步回歸過程結(jié)束。回歸變量的選擇與逐步回歸逐步回歸分析的實施過程是每一步都要對46多重共線性回歸分析是一種比較成熟的預(yù)測模型,也是在預(yù)測過程中使用較多的模型,在自然科學(xué)管理科學(xué)和社會經(jīng)濟(jì)中有著非常廣泛的應(yīng)用,但是經(jīng)典的最小二乘估計,必需滿足一些假設(shè)條件,多重共線性就是其中的一種。實際上,解釋變量間完全不相關(guān)的情形是非常少見的,大多數(shù)變量都在某種程度上存在著一定的共線性,而存在著共線性會給模型帶來許多不確定性的結(jié)果。多重共線性回歸分析是一種比較成熟的預(yù)測模型,也是在預(yù)測過程47多重共線性設(shè)回歸模型ε如果矩陣X的列向量存在一組不全為零的數(shù),I=1,2,…n,則稱其存在完全共線性,如果,I=1,2,…n,則稱其存在近似的多重共線性。多重共線性設(shè)回歸模型48多重共線性當(dāng)存在嚴(yán)重的多重共線性時,會給回歸系數(shù)的統(tǒng)計檢驗造成一定的困難,可能造成F檢驗獲得通過,T檢驗卻不能夠通過。在自變量高度相關(guān)的情況下,估計系數(shù)的含義有可能與常識相反。在進(jìn)行預(yù)測時,因為回歸模型的建立是基于樣本數(shù)據(jù)的,多重共線性也是指抽樣的數(shù)據(jù)。如果把建立的回歸模型用于預(yù)測,而多重共線性問題在預(yù)測區(qū)間仍然存在,則共線性問題對預(yù)測結(jié)果不會產(chǎn)生特別嚴(yán)重的影響,但是如果樣本數(shù)據(jù)中的多重共線性發(fā)生了變化則預(yù)測的結(jié)果就不能完全的確定了。多重共線性當(dāng)存在嚴(yán)重的多重共線性時,會給回歸系數(shù)的統(tǒng)計檢驗造49多重共線性檢驗檢查和解決自變量之間的多重共線性,多多元線性回歸分析來說是很必要和重要的一個步驟,常用的共線性診斷方法包括:直觀的判斷方法方差擴(kuò)大因子法(VIF)特征根判定法多重共線性檢驗檢查和解決自變量之間的多重共線性,多多元線性回50直觀的判斷方法在自變量的相關(guān)系數(shù)矩陣中,有某些自變量的相關(guān)系數(shù)值比較大?;貧w系數(shù)的符號與專業(yè)知識或一般經(jīng)驗相反對重要的自變量的回歸系數(shù)進(jìn)行t檢驗,其結(jié)果不顯著,但是F檢驗確得到了顯著的通過如果增加一個變量或刪除一個變量,回歸系數(shù)的估計值發(fā)生了很大的變化重要變量的回歸系數(shù)置信區(qū)間明顯過大直觀的判斷方法在自變量的相關(guān)系數(shù)矩陣中,有某些自變量的相關(guān)51方差擴(kuò)大因子法(VIF)一般認(rèn)為如果最大的超過10,常常表示存在多重共線性。事實上>10這說明>0.9。方差擴(kuò)大因子法(VIF)一般認(rèn)為如果最大的超過152特征根判定法根據(jù)矩陣行列式性質(zhì),矩陣行列式的值等于其特征根的連乘積。因此,當(dāng)行列式||≈0時,至少有一個特征根為零,反過來,可以證明矩陣至少有一個特征根近似為零時,X的列向量必存在多重共線性,同樣也可證明有多少個特征根近似為零矩陣X就有多少個多重共線性。根據(jù)條件數(shù),其中為最大的特征根.為其他的特征根,通常認(rèn)為0<k<10,沒有多重共線性,k>10存在著多重共線性。特征根判定法根據(jù)矩陣行列式性質(zhì),矩陣行列式的值等于其特征根的53多重共線性的處理方法增加樣本容量,當(dāng)線性重合是由于測量誤差引起的以及他僅是偶然存在于原始樣本,而不存在于總體時,通過增加樣本容量可以減少或是避免線性重合,但是在現(xiàn)實的生活中,由于受到各種條件的限制增加樣本容量有時又是不現(xiàn)實的剔除一些不重要的解釋變量,主要有向前法和后退法,逐步回歸法。多重共線性的處理方法增加樣本容量,當(dāng)線性重合是由于測量誤差54多重共線性的處理方法前進(jìn)法的主要思想是變量由少到多的,每次增加一個,直至沒有可引入的變量為止。具體做法是首先對一個因變量y和m個自變量分別建立回歸方程,并分別計算這m個回歸方程的F值,選其最大者,記為Fj,,給定顯著性水平F,如果Fj>F,則變量引入該方程,再分別對(Xj,X1),(Xj,X2)…(Xj,Xm)做回歸方程,并對他們進(jìn)行F檢驗,選擇最大的Fi值,如果Fi.>F,則該變量引入方程,重復(fù)上述步驟,直到?jīng)]有變量引入為止。后退法,是先用m個因變量建立回歸方程,然后在這m個變量中選擇一個最不顯著的變量將它從方程中剔除,對m個回歸系數(shù)進(jìn)行F檢驗,記所求得的最小的一個記為Fj,給定一個顯著性的水平,如果Fj<F則將Xj從方程中刪除,重復(fù)上述步驟直到所有不顯著的變量被剔除為止。多重共線性的處理方法前進(jìn)法的主要思想是變量由少到多的,每次增55多重共線性的處理方法逐步回歸法,前進(jìn)法存在著這樣的缺點當(dāng)一個變量被引入方程時,這個變量就被保留在這個方程中了,當(dāng)引入的變量導(dǎo)致其不顯著時,它也不會被刪除掉,后退法同樣存在著這樣的缺點,當(dāng)一個變量被剔除時就永遠(yuǎn)的被排斥在方程以外了,而逐步回歸法克除了兩者的缺點。逐步回歸的思想是有進(jìn)有出。將變量一個一個的引入,每引入一個變量對后面的變量進(jìn)行逐個檢驗,當(dāng)變量由于后面變量的引入而不變的不顯著時將其剔除,進(jìn)行每一步都要進(jìn)行顯著性的檢驗,以保證每一個變量都是顯著的。多重共線性的處理方法逐步回歸法,前進(jìn)法存在著這樣的缺點當(dāng)一個56多重共線性的處理方法主成分法。當(dāng)自變量間有較強(qiáng)的線性相關(guān)性時,利用P個變量的主成分,所具有的性質(zhì),如果他們是互不相關(guān)的,可由前m個主成來建立回歸模型。由原始變量的觀測數(shù)據(jù)計算前m個主成分的的得分值,將其作為主成分的觀測值,建立Y與主成分的回歸模型即得回歸方程。這時P元降為m元,這樣既簡化了回歸方程的結(jié)構(gòu),且消除了變量間相關(guān)性帶來的影響。多重共線性的處理方法主成分法。當(dāng)自變量間有較強(qiáng)的線性相關(guān)性時57復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù)在學(xué)習(xí)一元線性回歸分析時,討論了與之緊密聯(lián)系的一元相關(guān)分析或簡單相關(guān)分析。將這個概念擴(kuò)展到多元,就是多元相關(guān)分析或復(fù)相關(guān)分析。簡單相關(guān)分析研究兩個變量之間的關(guān)聯(lián)性,復(fù)相關(guān)研究多個變量之間的關(guān)聯(lián)性。復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù)在學(xué)習(xí)一元線性回歸分析時,討論了與之58復(fù)相關(guān)系數(shù)復(fù)相關(guān)系數(shù)是指在具有多元相關(guān)關(guān)系的變量中,用來測定因變量y與一組自變量之間相關(guān)程度的指標(biāo)。

復(fù)相關(guān)系數(shù)的計算公式為:復(fù)相關(guān)系數(shù)復(fù)相關(guān)系數(shù)是指在具有多元相關(guān)關(guān)系的變量中,用來測定59偏向關(guān)系數(shù)偏相關(guān)系數(shù)度量了當(dāng)其它變量固定不變時,或者說,消除了其它變量的影響之后,兩個變量之間線性關(guān)聯(lián)的強(qiáng)度。設(shè)有三個變量,如果在三個變量中,剔除的影響,可計算對偏向關(guān)系數(shù),記作,其計算公式為:

偏向關(guān)系數(shù)偏相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論