殘差分析--數(shù)據(jù)分析_第1頁
殘差分析--數(shù)據(jù)分析_第2頁
殘差分析--數(shù)據(jù)分析_第3頁
殘差分析--數(shù)據(jù)分析_第4頁
殘差分析--數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、2.3 殘差分析殘差分析 前面討論的是線性回歸模型的參數(shù)估計和前面討論的是線性回歸模型的參數(shù)估計和有關的統(tǒng)計推斷,這些討論都是在對模型作了一有關的統(tǒng)計推斷,這些討論都是在對模型作了一定的假設進行的,其中最重要的是回歸關系的線定的假設進行的,其中最重要的是回歸關系的線性假設,誤差項的獨立同正態(tài)分布假設。當給定性假設,誤差項的獨立同正態(tài)分布假設。當給定了一批數(shù)據(jù)后,如何考察這些數(shù)據(jù)滿足假設是回了一批數(shù)據(jù)后,如何考察這些數(shù)據(jù)滿足假設是回歸分析的一個重要環(huán)節(jié)。歸分析的一個重要環(huán)節(jié)。 這些假設涉及到誤差項,而誤差是不可測這些假設涉及到誤差項,而誤差是不可測的,我們能夠使用的是其估計量殘差。的,我們能夠使

2、用的是其估計量殘差。2.3.1 2.3.1 誤差項的正態(tài)性檢驗誤差項的正態(tài)性檢驗一、學生化殘差一、學生化殘差 從誤差的估計值(殘差)出發(fā)分析關于誤差項從誤差的估計值(殘差)出發(fā)分析關于誤差項假定的合理性以及線性回歸關系的假定的可行性稱假定的合理性以及線性回歸關系的假定的可行性稱為殘差分析。為殘差分析。假設誤差向量假設誤差向量), 0(2IN則殘差向量則殘差向量)(, 0(2HINTTXXXXH1)(其中其中H H是是n n階對稱冪等矩陣階對稱冪等矩陣故故nihNiii, 2 , 1),1 (, 0(其中其中iTTiiixXXxh1)( 是是H H主對角線的第主對角線的第i i個元素,稱為個元素

3、,稱為杠桿量。杠桿量。 由于殘差的方差和杠桿量有關,故一般情況由于殘差的方差和杠桿量有關,故一般情況下,殘差的方差不相等,這不利于殘差的應用,下,殘差的方差不相等,這不利于殘差的應用,因此我們將殘差標準化。因此我們將殘差標準化。nihMSEriiii, 2 , 1,)1 ( 稱為學生化殘差,當稱為學生化殘差,當n n較大時,可認為其服從較大時,可認為其服從標準正態(tài)分布。這是檢驗誤差項獨立同正態(tài)分布標準正態(tài)分布。這是檢驗誤差項獨立同正態(tài)分布的基礎。的基礎。二、殘差正態(tài)性的頻率檢驗二、殘差正態(tài)性的頻率檢驗 殘差正態(tài)性的頻率檢驗是一種很直觀的檢驗殘差正態(tài)性的頻率檢驗是一種很直觀的檢驗方法,其基本思想

4、是學生化殘差落入一些范圍的方法,其基本思想是學生化殘差落入一些范圍的頻率與標準正態(tài)分布在相應范圍內的概率做比較,頻率與標準正態(tài)分布在相應范圍內的概率做比較,若二者相差較大,則認為殘差(從而模型誤差)若二者相差較大,則認為殘差(從而模型誤差)不服從正態(tài)分布。不服從正態(tài)分布。 在實際應用中,一般取幾個具有代表性的區(qū)間在實際應用中,一般取幾個具有代表性的區(qū)間進行比較。例如(進行比較。例如(-1-1,1 1)()(1.51.5,1.51.5)()(2 2,2 2) 服從標準正態(tài)分布的隨機變量取值在(服從標準正態(tài)分布的隨機變量取值在(-1-1,1 1)內的概率為內的概率為0.680.68;在;在(-1.

5、5,1.5)(-1.5,1.5)內的概率為內的概率為0.870.87;在(在(-2-2,2 2)內為)內為0.950.95,因此若模型誤差項獨立同,因此若模型誤差項獨立同正態(tài)分布,則當正態(tài)分布,則當n n較大時,學生化殘差中應大約有較大時,學生化殘差中應大約有68%68%的點落在在(的點落在在(-1-1,1 1)內;大約有)內;大約有87%87%在在(-(-1.5,1.5)1.5,1.5)內,大約內,大約95%95%在(在(-2-2,2 2)內。)內。 若在某個區(qū)間內差異較大,則有理由懷疑誤差若在某個區(qū)間內差異較大,則有理由懷疑誤差獨立同正態(tài)分布的假設的合理性。獨立同正態(tài)分布的假設的合理性。三

6、、殘差的正態(tài)三、殘差的正態(tài)qqqq圖檢驗圖檢驗 (1 1)學生化殘差正態(tài))學生化殘差正態(tài)qqqq圖做法圖做法 則所得的散點圖即為學生化殘差的正態(tài)則所得的散點圖即為學生化殘差的正態(tài)qqqq圖,圖,利用正態(tài)利用正態(tài)qqqq圖可以直觀檢驗誤差正態(tài)性假設的合圖可以直觀檢驗誤差正態(tài)性假設的合理性理性)()2()1(,1nrrr序統(tǒng)計量:)寫出學生化殘差的次)25. 0375. 0(, 2 , 121)(niqnii計算)對每個)3)()(iirq ,)在坐標系中描出點(2 2)相關系數(shù)檢驗。)相關系數(shù)檢驗。 除了上述直觀檢驗外,我們還可以構造兩者除了上述直觀檢驗外,我們還可以構造兩者的相關系數(shù)來度量二者

7、之間線性關系的強弱。其的相關系數(shù)來度量二者之間線性關系的強弱。其相關系數(shù)估計為相關系數(shù)估計為niniiiniiiqqrrqqrr11)()(1)()()()()(一條直線上。,則散點圖上點大致在接近于若1 通過考察不同類型殘差圖可以對誤差項分布的通過考察不同類型殘差圖可以對誤差項分布的正態(tài)性,等方差性以及回歸關系的線性性等假定的正態(tài)性,等方差性以及回歸關系的線性性等假定的合理性作出直觀檢測,還可以對回歸方程是否有必合理性作出直觀檢測,還可以對回歸方程是否有必要引進自變量的高次項、交叉項等提供參考。要引進自變量的高次項、交叉項等提供參考。2.3.2 2.3.2 殘差圖的分析殘差圖的分析 殘差圖是

8、以殘差為縱坐標,以其他有關量為橫殘差圖是以殘差為縱坐標,以其他有關量為橫坐標的散點圖。坐標的散點圖。 (1 1)以因變量)以因變量Y Y的擬合值為橫坐標的散點圖。的擬合值為橫坐標的散點圖。 若線性回歸關系正確且誤差服從正態(tài)分布,則若線性回歸關系正確且誤差服從正態(tài)分布,則因變量的擬合值與殘差向量相互獨立。這時殘差圖因變量的擬合值與殘差向量相互獨立。這時殘差圖中的點應大致在一個水平的帶狀區(qū)域內,沒有任何中的點應大致在一個水平的帶狀區(qū)域內,沒有任何明顯地趨勢,如下圖:明顯地趨勢,如下圖: (2 2)以自變量觀測值為橫坐標的散點圖。)以自變量觀測值為橫坐標的散點圖。 (3 3)以觀測時間或觀測值序號橫

9、坐標的散點)以觀測時間或觀測值序號橫坐標的散點圖。圖。 還可以用以下坐標做殘差圖,兩種殘差圖原理還可以用以下坐標做殘差圖,兩種殘差圖原理與上一個相同與上一個相同 通過殘差分析可以發(fā)現(xiàn)所給數(shù)據(jù)的某些特點和模型通過殘差分析可以發(fā)現(xiàn)所給數(shù)據(jù)的某些特點和模型假定的一些不足之處,接下來的問題就是要采取相應的假定的一些不足之處,接下來的問題就是要采取相應的措施改進其不足,以建立更好的回歸模型。措施改進其不足,以建立更好的回歸模型。 一個常用的改進措施就是一個常用的改進措施就是Box-CoxBox-Cox變換,它通過變換,它通過對因變量對因變量Y Y做適當變換,使原數(shù)據(jù)盡可能滿足線性回歸做適當變換,使原數(shù)據(jù)

10、盡可能滿足線性回歸模型的條件。模型的條件。2.3.2 Box-Cox2.3.2 Box-Cox變換變換Box-CoxBox-Cox變換對因變量變換對因變量Y Y做如下變換:做如下變換:0,ln0,1)(YYY滿足:,使得我們要確定)(Y), 0(,2)(ENXY 也就是說,我們通過因變量的變換,使得變換后也就是說,我們通過因變量的變換,使得變換后因變量與自變量有線性相關關系,且滿足誤差項的因變量與自變量有線性相關關系,且滿足誤差項的假設。假設。法確定:的取值我們通過以下方達到最小。,使選擇)(1)()()()(),(SSEZXXXXEZZTTT0,)(ln0,/ ) 1(),(1111)()(

11、)(2)(1)(nniiinniiiiTnyyyyzzzzZ其中 回歸方程的選取包括回歸方程類型的選取和回歸回歸方程的選取包括回歸方程類型的選取和回歸方程類型確定后自變量的選取。我們主要討論自變量方程類型確定后自變量的選取。我們主要討論自變量的選取的選取 人們在建立線性回歸模型時,會考慮用全部可能人們在建立線性回歸模型時,會考慮用全部可能的自變量建立回歸方程,這樣做的問題有的自變量建立回歸方程,這樣做的問題有 :2.4 回歸方程的選取回歸方程的選取 (1 1)會將一些對因變量影響很小甚至根本無影響)會將一些對因變量影響很小甚至根本無影響的自變量也包含在回歸方程中,從而使計算量增加,的自變量也包

12、含在回歸方程中,從而使計算量增加,并會導致回歸參數(shù)估計和因變量預測值的精度下降。并會導致回歸參數(shù)估計和因變量預測值的精度下降。(2 2)自變量太多不利于應用回歸方程對實際問題)自變量太多不利于應用回歸方程對實際問題做出合理的解釋,也會造成數(shù)據(jù)收集和模型應用做出合理的解釋,也會造成數(shù)據(jù)收集和模型應用代價的不必要的增大代價的不必要的增大。 因此在實際應用中,從與因變量有線形關系的因此在實際應用中,從與因變量有線形關系的自變量集合中,選取一個最優(yōu)的子集,以建立一個自變量集合中,選取一個最優(yōu)的子集,以建立一個合理而又簡單的回歸方程十分重要。合理而又簡單的回歸方程十分重要。 一,窮舉法一,窮舉法 窮舉法

13、就是從與因變量有線性關系的所有可能窮舉法就是從與因變量有線性關系的所有可能自變量的所有子集所擬合的回歸方程中,按照一定自變量的所有子集所擬合的回歸方程中,按照一定的準則選取最優(yōu)的一個或幾個。的準則選取最優(yōu)的一個或幾個。下面是下面是sassas提供選擇的幾個窮舉法的選取準則提供選擇的幾個窮舉法的選取準則2( )1ppSSERpSST (1) (1) 復相關系數(shù)準則復相關系數(shù)準則P P是回歸系數(shù)的個數(shù)是回歸系數(shù)的個數(shù)2(1)1( )1 ()1ppaSSEnMSEnRpnpSSTSST (2) (2) 修正的復相關系數(shù)準則修正的復相關系數(shù)準則(2 )ppSSECnpMSE(3) Cp(3) Cp準則

14、準則二,逐步回歸法二,逐步回歸法 窮舉法從理論上講是選擇回歸方程最好的方法,窮舉法從理論上講是選擇回歸方程最好的方法,但是,窮舉法所擬合的方程個數(shù)隨自變量數(shù)目的增加但是,窮舉法所擬合的方程個數(shù)隨自變量數(shù)目的增加而成倍增加。其計算量非常大。而成倍增加。其計算量非常大。 逐步回歸法的基本思想是依次擬合一系列回歸方程,逐步回歸法的基本思想是依次擬合一系列回歸方程,后一個回歸方程是在前一個的基礎上增加或刪除一個后一個回歸方程是在前一個的基礎上增加或刪除一個自變量,其增加和刪除的原則是用殘差平方和的相對自變量,其增加和刪除的原則是用殘差平方和的相對減少或增加量來衡量。減少或增加量來衡量。 ( )( ,)

15、(|)( ,)( ,)(1)kkkkkSSE ASSE A XSSR XAFSSE A XMSE A Xnl 偏偏F F統(tǒng)計量:統(tǒng)計量: 若某個自變量對因變量影響顯著若某個自變量對因變量影響顯著, ,則其偏則其偏F F統(tǒng)計量統(tǒng)計量不應太小不應太小. .SasSas常用的檢驗準則常用的檢驗準則: :(1)(1)前向選擇法前向選擇法 從僅含常數(shù)項的回歸模型開始從僅含常數(shù)項的回歸模型開始, ,逐個加入自變量逐個加入自變量其準則是將反應各自變量加入時其準則是將反應各自變量加入時, ,描述殘差平方和描述殘差平方和減少量的偏減少量的偏F F統(tǒng)計量的統(tǒng)計量的p p值與給定的控制水平相比較值與給定的控制水平相比較. . 若所有不在模型中的自變量所對應的統(tǒng)計量若所有不在模型中的自變量所對應的統(tǒng)計量p p值值均大于給定控制水平均大于給定控制水平( (影響均不顯著影響均不顯著).).則選擇結束則選擇結束. .否則將具有最大偏否則將具有最大偏F F值的自變量引入模型值的自變量引入模型. .然后重復然后重復上述過程上述過程(2)(2)后向選擇法后向選擇法 首先擬合一個包含所有自變量的線性回歸模型首先擬合一個包含所有自變量的線性回歸模型, ,然后根據(jù)偏然后根據(jù)偏F F統(tǒng)計量的統(tǒng)計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論